Page 242 - 《软件学报》2021年第8期
P. 242

2524                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                    图像字幕任务与视觉问答任务的输入类似,但视觉问答任务比图像字幕任务更为复杂:视觉问答任务需要
                 对图片内容进行推理,并且常常需要图片之外的知识,额外知识的范围从常识到专业知识;而图像字幕任务只需
                 描述图像中的内容.与图像字幕任务相比,视觉问答任务更易于评价,其答案通常只有一个或几个单词;而图像
                 字幕任务的答案通常是一个或多个句子,需要检查内容描述与图像是否一致,并且需要确认句子语法和句法的
                 正确性,尽管当前研究了高级评价指标,但这仍是一个需要不断完善的研究.
                    视觉问答任务的研究有很多现实的应用,如:可以帮助盲人和视障人士能够在网络或者现实世界获得更多
                 的信息,甚至可以进行实时的人机交互,这将极大改善盲人和视障人士的生活条件和便捷性;改善人机交互的方
                 式,可以通过自然语言来查询视觉内容,拓展智能机器人的问答功能;视觉问答系统可以用于图像检索领域,比
                 如可以针对数据集中的所有图像问“图像中存在汽车吗”.视觉问答任务包含大部分计算机视觉相关任务,视觉
                 问答任务的不断发展,必定会带来诸多领域的进步.
                    视觉问答任务自 2014 年提出以来取得了巨大进步:最开始的方法主要集中在以视觉特征和文本特征联合
                 嵌入的方式;之后,随着注意力机制的提出,视觉问答模型将注意力机制引入,为问题的解答提供了可解释性,效
                 果也有了重要的进步.组合式模型注重问题解答的推理过程,但在自然图像集上表现不佳.针对部分需要外部知
                 识问题,以知识库为基础的模型在这部分问题的解答方面有所进步.
                    2014 年~2017 年,已有多篇综述针对视觉问答任务进行了介绍                [13−16] .但近几年,视觉问答任务的研究得到了
                 众多关注,数据集和模型有了重要的进步.有研究发现,视觉问答模型强烈依赖训练集中的表面相关性,存在语
                 言偏见的问题,即:由于训练集中特定问题-答案对的数量占比过多,导致问题与答案存在强烈的关联,比如问题
                 “是什么颜色”的答案一般为白色,问题“是什么运动”的答案一般为网球.当回答测试集中的问题时,模型会依赖
                 训练数据中的语言先验得出答案,而缺乏对图像中内容的关注.由于训练集和测试集中针对相同问题的答案分
                 布相近,早期模型利用数据集的漏洞取得了很好的效果;随着 VQA 2.0数据集                      [17] ,特别是 VQA-CP数据集的提出,
                 模型的效果大幅下降.Agrawal 等人       [18] 的研究表明:VQA-CP 数据集相较于 VQA 数据集只对其数据分布进行改
                 变,模型的效果平均下降 30%左右,如 SAN 模型           [19] 的准确率从 55.86%(VQA v1),52.02%(VQAv2)下降至 26.88%
                 (VQA-CP v1),24.96%(VQA-CPv2).这说明数据集的分布对模型的影响十分严重,模型的鲁棒性存在一定问题.
                    本文主要介绍了与视觉问答任务相关的方法模型、数据集以及评价标准,许多研究针对模型的鲁棒性进行
                 改进,本文进行了重点的介绍.本文第 1 节对视觉问答任务的方法进行了总结,重点介绍了近几年在模型鲁棒性
                 方面的研究.第 2 节主要介绍了视觉问答任务相关的数据集,对于早期数据集进行比较和分析,重点介绍了近年
                 来新提出的有关模型鲁棒性的数据集.第 3 节对于模型的评价标准进行了介绍.第 4 节讨论了视觉问答任务存
                 在的挑战和展望.

                 1    模型介绍
                    在过去的 7 年内,国内外研究人员提出了大量的视觉问答模型,本文将问答模型的基本解决方案总结为以
                 下 4 步:
                    •   提取视觉特征(图像特征化);
                    •   提取文本特征(问题特征化);
                    •   特征融合;
                    •   得出答案.
                    对于图像特征的提取,早期主要采用在 ImageNet             [20] 上预训练的卷积神经网络直接提取图像特征,常见的卷
                 积神经网络模型为 VGGNet       [21] 、ResNet  [22] 和 GoogLeNet [23] .之后,随着注意力机制的加入,大部分研究采用将图
                 像分块提取特征.Anderson 等人     [24] 利用目标检测网络 Faster R-CNN   [25] 提取图像中对象的特征,采用图像中部分
                 对象特征作为输入,这是目前视觉问答任务中主流的视觉特征.对于问题的文本特征提取,方法包括单词袋
                 (BOW)、长短期记忆(LSTM)编码器        [26] 、门控递归单元(GRU)   [27] 和跳跃思想向量   [28] .对于特征融合方面,大部分
                 模型使用简单的机制(例如串联、逐元素乘法或逐元素加法)将图像和问题特征进行组合.对于如何产生答案,
   237   238   239   240   241   242   243   244   245   246   247