Page 244 - 《软件学报》2021年第8期
P. 244
2526 Journal of Software 软件学报 Vol.32, No.8, August 2021
量的内存空间,限制了其适用范围.Kim 等人 [34] 提出了多模态低秩双线性池化模型(multimodal low-rank bilinear
pooling,简称 MLB),MLB 模型是基于阿达玛积(Hadamard product)来融合两种特征.MLB 模型具有输出维度相
对低、模型参数较少的优点,但是模型对超参数敏感,训练收敛速度慢.为了使得模型具有 MLB 模型输出低维度
以及 MCB 模型具有鲁棒性的优点,Yu 等人 [35] 提出了多模态拆分双线性池化模型(multimodal factorized bilinear
pooling,简称 MFB),将特征融合时用到的投影矩阵分解成两个低秩矩阵,大大减少了模型的参数和输出维度.Yu
等人 [36] 再次改进,提出了多模态因数化高阶池化模型(multi-modal factorized high-order pooling,简称 MFH).
MFH 模型是将 MFB 模型中的操作分为扩张阶段和紧缩阶段,将 MFB 模型堆叠以得到高阶信息.在减少模型参
数方面,Benyounes 等人 [37] 提出了一个多模态基于张量的塔克分解方法,用于参数化视觉和文本表示之间的双
线性交互.此外,对于塔克分解,Benyounes 等人 [37] 设计了一种低秩矩阵分解来限制交互的秩,可以控制融合过程
的复杂度,同时保持较好的、可解释的融合关系.Benyounes 等人 [38] 在此基础上提出了基于块超对角张量分解的
双线性超对角融合.论文中借鉴了块项秩的概念,概括了已经用于多峰融合张量的秩和模态秩的概念.双线性超
对角融合既能够表示模态间的精确交互,同时还保留单模态表示.一个双线性融合模型,其参数张量使用块项分
解来构造.
在模型网络修改方面,Kim 等人 [39] 受深度残差结构的启发,提出了多模态残差网络(multimodal residual
networks),在神经网络中加入多级残差连接,使得两个模态特征可以互相影响共同学习映射.Saito 等人 [40] 提出
了“DualNet”整合两种操作,即两种模态特征元素级相加和相乘.Gao 等人 [41] 考虑了多种方式来进行模态融合,首
先利用 softmax 操作和单层映射得到 k 组线性组合权重,权重与特征相乘后得到特征摘要向量,每个摘要向量都
是单个特征的线性组合,与单个特征相比含有更高级的信息特征;将视觉摘要向量和文本摘要向量相乘得到
k×k 个视觉-文本摘要向量对,尝试建模每个单独的视觉-文本之间的关系以及在所有视觉-文本对之间传播更高
阶的信息以对更复杂的关系进行建模,然后将结果相加,最后聚合信息以更新特征.
除将问题的文本特征和视觉特征作为模型的输入之外,Do 等人 [42] 发掘了三元组输入(图像,问题,答案)间的
线性关联,输入的增加直接导致了模态融合时参数的增加.Do 等人使用 PARALIND 分解 [43] ,有效地参数化 3 种
输入间的交互.
单纯的联合嵌入方法不足以捕捉和建模所有特征信息,联合嵌入的过程不涉及对问题的理解以及对图片
内容的推理,其属于视觉问答模型的基础部分,有很大的提升空间.由于视觉特征和文本特征中有很大部分信息
对于解答问题没有帮助,直接将两种特征进行联合嵌入,会因为无关的信息影响最终的分类或答案生成.
1.2 注意力方法
上述大部分模型是将图片或问题提取的全部特征作为视觉问答模型的输入,但图片中含有大量与问题无
关的信息,而问题中也存在需要重点关注的单词,将所有的特征全部输入最终会导致将大量噪声输入至分类器
中,进而影响预测的准确率.注意力方法的目的是关注图片中与问题相关的区域或者关注问题中最关键的词,这
一机制模拟了人脑的认知模式,即根据实际需求而将有限的注意力聚焦于事物的关键部分,从而大大加强了神
经网络的理解能力.比如问题“图片中汽车的颜色是什么?”,问题中“汽车”和“颜色”是关键词,包含汽车的区域应
该得到更多的关注.注意力方法在其他视觉领域和自然语言处理领域取得了很大的成功,比如对象识别 [44] 、图
像字幕 [45] 以及机器翻译 [46] 等领域.Xu 等人 [47] 最先在与视觉问答任务相近的图像字幕任务中对注意力机制进
行了探索,生成字幕时重点关注图片中的某一区域.
1.2.1 以问题为引导的注意力方法
早期的注意力方法是利用问题寻找图片中与问题相关的区域,Zhu 等人 [48] 将注意力方法与长短期记忆网
络相结合,每一步将一个单词与视觉特征作为输入,输出该步的注意力图,将注意力图与视觉特征相乘就生成了
新的视觉特征.Shih 等人 [49] 将视觉特征与文本特征简单相乘得到注意力权重,注意力权重的维度与视觉特征中
区域的数量相等,权重的大小代表区域的重要程度,如图 3 中所示,注意力权重与视觉特征相乘后更新视觉特征.
Yang 等人 [19] 认为视觉问答任务是一个推理的过程,单次获得的注意力权重不能准确地回答问题.因此,Yang 等
人提出了堆叠关注网络模型(stacked attention network,简称 SAN).模型通过多次迭代,不断利用问题的文本特征