Page 249 - 《软件学报》2021年第8期
P. 249

包希港  等:视觉问答研究综述                                                                 2531


                 人 [77] 通过提取图像中的高级语义,将图像内容的内部表示与从通用知识库中提取的信息结合起来,特别允许询
                 问关于图像内容的问题,即使图像本身不包含完整答案.如图 9 中所示,从知识库(在本例中是 DBpedia)和
                 Doc2Vec 编码的响应中挖掘知识,进一步编码问题的表示.




















                                          Fig.9    A VQA model with external knowledge [77]
                                              图 9   具有外部知识的 VQA 模型       [77]
                    由于大部分问题仅需要小量的先验知识,模型在通用数据集上的效果并不能在引入外部知识后得到显著
                 的提升;并且,如何准确地查找所需的知识以及将获得的知识用于回答问题,如何得到一个合适的、可扩展的框
                 架用于融合和自适应地选择相关的外部知识等问题,还需要进一步研究.
                 1.5   鲁棒性研究
                    近年来,视觉问答任务受到了广泛的关注,提出了很多深度学习模型,在不同数据集上展现了很大的进步,
                 但是目前的视觉问答模型有着许多鲁棒性问题.从研究                    [16,30,78,79] 中可以发现,目前的视觉问答模型受训练集表
                 面相关性的影响很大.由于训练集计数问题的答案中“2”的比例很高,比如回答“图中有多少个…”的问题时,不
                 论图中是什么物体,答案基本上都是“2”.模型可以利用训练集中的统计数据,问题类型与答案相关度很高,不需
                 考虑图片的内容就可以得到正确答案.从 Shah 等人              [80] 的研究中可以发现:目前的视觉问答模型对于问题中语言
                 变化十分敏感,在不改变问题含义的前提下,修改问题的句子结构或者增删某个单词,模型给出的答案随之改
                 变.Zhang 等人 [79] 通过研究视觉问答模型对图像中有意义的语义变化的鲁棒性,分析了视觉问答模型中视觉的
                 重要程度.Xu 等人    [81] 的研究表明:尽管使用了先进的注意力机制,但很容易用图像中很小的变化来欺骗视觉问
                 答模型.Agrawal 等人  [82] 研究了视觉问答模型对训练和测试环境中答案分布变化的鲁棒性.
                    为了避免受数据集的表面相关性影响,有研究在改进数据集方面进行努力,创建更平衡的数据集.Zhang 等
                 人 [79] 对所有二元问题收集了具有相反答案的互补抽象场景.Goyal 等人                  [17] 把这个想法扩展到真实的图像和所
                 有类型的问题.VQA v2 数据集       [17] 平衡答案分布,使每个问题至少存在两个答案不同的相似图像.VQA-CP v2 数
                 据集 [18] 将 VQA v2 数据集进行诊断重构,其中,训练集中的问题答案分布与测试集中的明显不同,这可以避免视
                 觉问答模型利用训练集中的偏见.
                    有的研究在改进模型方面进行努力,大部分的方法采用引入另一个只将问题作为输入的分支,如图 10 右侧
                 中所示.Chen 等人   [83] 将模型的改进分为两类.
                    (1)  基于对抗的方式
                    Ramakrishnan 等人 [18] 将对抗性规则化(AdvReg)应用至视觉问答任务中,其引入了一个只考虑问题的模型,
                 模型将视觉问答模型中的问题编码作为输入.将训练的过程视为视觉问答模型和只含有问题作为输入的模型
                 进行对抗——阻止视觉问答模型在其问题编码中捕捉语言偏见.同时引入置信度量化,训练过程使得在考虑图
                 像之后,模型置信度增加,通过显式地最大化两个模型之间的置信度差异,以鼓励模型重视视觉基础.Grand 等
   244   245   246   247   248   249   250   251   252   253   254