Page 251 - 《软件学报》2021年第8期
P. 251
包希港 等:视觉问答研究综述 2533
除增加分支对模型进行改进外,Wu 等人 [89] 在研究中发现:视觉问答模型被鼓励关注人类认为重要的图片
区域,即使当视觉问答模型产生了错误的答案,也会关注重要的区域.当出现这种现象时,模型并不会纠正.论文
中提出了一种“自我批评”的方法,直接批评不正确的答案对重要区域的敏感性.对于每个问答对,首先确定最影
响模型预测正确答案的区域.当模型对这个问题的预测答案是错误的时候,惩罚它对这个区域的关注,保证了正
确答案与其他答案相比更关注重要的区域.
但上述方法不能同时增加视觉问答模型的视觉可解释性和问题敏感度,模型应该更加注意与问题更相关
的视觉区域,也就是针对正确的区域做出决定.模型应该对所讨论的语言变化敏感,也就是说应该注意问题的敏
感词(重要的词),当敏感词变化的时候,得到的答案应该变化,模型的处理也应该有变化.Chen 等人 [83] 提出了与
模型无关的反事实样本合成(CSS)训练策略.CSS 由两种不同的样本合成机制组成:V-CSS 和 Q-CSS.对于
V-CSS,它通过掩盖原始图像中的关键对象来合成反事实图像.意味着这些对象对于回答某个问题很重要.然后,
反事实图像和原始问题组成了一个新的图像问题对.对于 Q-CSS,它通过使用特殊标记“[MASK]”替换原始问题
中的关键单词来合成反事实问题.同样,反事实问题和原始图像构成了新的视觉问题对.针对新生成的样本对采
用动态答案分配机制构成完整的三元组样本.通过数据扩增,视觉问答模型被迫专注于所有关键对象和单词,从
而显着提高了视觉可解释性和问题敏感性能力.
目前的视觉问答模型还有其他鲁棒性问题,如回答有关于图片中文本问题的准确率不高.Singh 等人 [90] 为
了进一步研究回答有关图片中文本的问题,提出了 TextQA 数据集,TextQA 数据集中所有问题都需要对图片中
的文本进行推理才能回答.同时提出了一个新的模型结构,在模型中加入了光学字符识别(optical character
recognition)模块,它可以读取图像中的文本,模型可以在图像和问题的上下文中推理读取的文本,最终答案可以
是通过文本和图像推理得到的答案或通过光学字符识别得到的文本.Biten 等人 [91] 同年提出了 ST-VQA 数据集,
旨在强调在视觉问答过程中,利用图像中的高级语义信息作为回答关于文本问题的重要线索.论文中将传统视
觉问答模型与场景文本检索(scene text retrieval)模型结合,将生成最可信的字符的金字塔状直方图(PHOC)特征
与视觉特征连接.
视觉问答模型存在对问题敏感度高的鲁棒性问题,Shah 等人 [80] 针对这个问题提出了 VQA-Rephrasings 数
据集,数据集中的每个问题有另外 3 个含义相同但句式等其他方面存在不同的改述问题.论文中提出了周期一
致性的训练策略,该策略借鉴了 Cycle-GAN [92] 的思想,首先通过视觉问答模型给出问题答案,通过答案生成原始
问题的改述问题,视觉问答将改述问题作为输入得到新的答案.整个训练过程是缩小原始问题和改述问题之
间、真实答案与两次生成的答案之间的损失,使得模型更加健壮,模型能针对相同含义的问题给出相同答案.
当前的视觉问答模型回答有关计数问题与其他类型问题相比准确率不高,Zhang 等人 [93] 提出造成计数类
问题表现不佳的原因主要有:(1) 软注意力(soft-attention)的广泛运用;(2) 区别于标准的计数问题,对于视觉问
答任务来说,没有明确的标签标定需要计数对象的位置;(3) 视觉问答模型的复杂性表现在不仅要处理计数类
问题,同时还要兼顾其他复杂的问题;(4) 真实场景中,对某个对象区域可能存在多次重叠采样.论文中将相关的
建议对象描述成点,对象间的内部与外部关系描述成边,最终形成图,通过设计策略取消重复采样对象内部和减
半与其他对象之间的边,最终对象数量等于边数量的算术平方根.Acharya 等人 [94] 提出了世界上最大的开放式
计数数据集 TallyQA 数据集 [94] ,目前的数据集记数问题相对简单只需要对象检测,而 TallyQA 数据集中的问题
属于复杂计数问题,只通过对象检测无法回答.论文中提出了新的计数方式——关系计数网络(RCN),其受到关
系网络的启发,通过修改处理动态数量的图像区域并显式地合并背景信息,可以推断对象与背景图像区域之间
的关系.
Shrestha 等人 [95] 提出:视觉问答模型并不能兼容自然图像的理解和合成数据集的推理,大部分模型在这两
个领域不具有泛化能力.他们提出了通过将视觉特征和文本特征两次融合,在自然图像数据集和合成数据集上
均得到了良好的效果.实验结果表明,第 1 次融合比较重要,若无第 1 次特征融合,模型的效果会下降约 4%.
视觉问答模型的鲁棒性研究是近几年的研究热点,由于问题类型的复杂性,模型不能兼顾所有类型的问题.
数据集中答案的分布使得模型能够利用语言相关性正确地回答问题,但是其泛化能力差.大部分避免模型利用