Page 243 - 《软件学报》2021年第8期

P. 243

包希港等:视觉问答研究综述 2525

针对开放式的视觉问答任务,大部分研究将视觉问答任务视为分类任务,将视觉特征和文本特征作为分类系统
的输入,从训练数据中得出若干个最常见的答案,每个答案视为一个单独的类别.对于多项选择形式的视觉问答
任务,大部分研究将其视为排名问题,训练系统对每个可能的多项选择的候选答案给出分数,然后选择最高分数
的答案.
本节的如下部分按照模型中采用的主要方法将模型分为联合嵌入方法模型、注意力方法模型、基于组合
式的方法模型、基于外部知识库的方法模型以及鲁棒性研究模型这 5 个类别,分别从方法的动机、细节以及局
限性这 3 个方面介绍使用这些方法的模型.最后,报告了近年来提出的模型在 3 个主要数据集的效果.
1.1 联合嵌入方法
视觉问答任务的输入为视觉特征和文本特征的多模态信息,需要将两种特征映射到共同的特征空间,联合
嵌入的方法最先在图像描述任务 [7−9] 中应用.视觉问答任务与图像描述任务的输入类似,但需要进一步推理才
能得出答案.将视觉特征和文本特征映射至同一空间更有利于信息之间的交互和进一步推理答案,因此,联合嵌
入方法进一步在视觉问答任务中发展.联合嵌入方法大多是采用卷积神经网络提取视觉特征,循环神经网络提
取文本特征,将两种特征通过简单的机制(例如串联、逐元素乘法或逐元素加法)组合,将组合后的特征送入线性
分类器或神经网络,大致流程如图 2 所示.

Fig.2 Framework of joint embedding methods
图 2 联合嵌入方法的框架

在视觉问答模型中最先利用联合嵌入方法是由 Malinowski 等人 [29] 提出的”Neural-Image-QA”模型,模型以
卷积神经网络(CNN)和长短期记忆网络(LSTM)为基础,将视觉问答任务视为结合图像信息作为辅助的序列至
序列(sequence to sequence)任务,最终生成的预测结果长度可变.首先由一个预训练的深度卷积神经模型提取图
片特征,然后将图片特征和将问题词转化为词向量的文本特征作为长短期记忆网络的输入,每次输入将每个单
词和图片特征输入至网络,直到将所有的问题特征信息输入.用同一个长短期记忆网络预测答案,直至产生结束
符(〈END〉).模型的训练过程是结合视觉特征的长短期记忆网络的训练以及词向量生成器的训练.类似的工作 [9]
也采用长短时记忆网络生成可变长度的答案,但由于问题和答案的属性不同(例如两者的语法格式不同),应使
用两个独立的长短时记忆网络处理更加合理.与上述两种生成式答案不同,Gao 等人 [30] 将视觉问答任务视为分
类任务,将特征向量送入线性分类器,从预定义的词汇表中生成单字答案.在此基础上,Noh 等人 [31] 将 CNN 的全
连接层中加入了动态参数预测层.利用递归神经网络将问题的文本特征产生候选权重,根据不同的问题对视觉
输入产生的动态参数进行修改.
上述方法中,特征结合的方式有点乘、点加、连接等.由于图像和文本属于多模态信息,有大量的工作研究
如何将两种特征进行融合.Fukui 等人 [32] 认为产生的联合向量表达能力不够,不足以捕捉多模态之间复杂的交
互信息,因此提出多模态紧凑双线性池化模型(multimodal compact bilinear pooling,简称 MCB),在多模态特征融
合时,使用双线性(外积、克罗内克积),但这会导致模型参数的数量急剧上涨.Fukui 等人通过 Tensor Sketch [33]
算法降维和避免直接计算外积减少模型的参数,由于 MCB 模型需要输出高维度特征来保证鲁棒性,所以需要大

238 239 240 241 242 243 244 245 246 247 248