Page 245 - 《软件学报》2021年第8期

P. 245

包希港等:视觉问答研究综述 2527

获得视觉特征区域的注意力,通过分析 SAN 模型不同层的输出,可以发现模型会更加关注图片中与问题有关的
部分.实验结果表明:每次获得视觉特征区域注意力的过程都是一次推理的过程,能够关注更详细的内容.如图 4
所示,经过多次迭代,模型更加关注图中与问题相关的区域.

Fig.3 Framework of problem-guided attention methods
图 3 以问题为引导的注意力方法的框架

Fig.4 Visualization of the learned multiple attention layers [19]
图 4 学习的多个注意力层的可视化 [19]

Patro 等人 [50] 认为,已有研究的注意力方法关注的区域与人类关注的图像区域并不相关.因此,Patro 等人提
出通过一个或多个支持和反对范例来取得一个微分注意力区域,语义相近的范例和远语义范例之间存在差异,
这样的差异能够引导注意力关注于一个特定的图像区域.实验证明了与基于图像的注意力方法相比,微分注意
力更接近人类的注意力.
1.2.2 共同注意力方法
共同注意力方法不光考虑利用文本特征获得视觉特征的注意力,同样考虑得到问题的注意力,即问题中哪
些单词更为重要.共同注意力模型是对称的,通过视觉特征可以引导产生问题的注意力,文本特征可以引导产生
图片的注意力.Lu 等人 [51] 构建了一个层次结构,分别在单词层面、短语层面、句子层面构建共同注意力,提出了
平行共同注意力和可选共同注意力两种构建方式:平行共同注意力是同时生成视觉注意力和文本注意力;而可
选共同注意力是首先通过文本特征构建视觉注意力,利用得到的新视觉特征构建文本注意力.Nam 等人 [52] 认为:
层次共同注意力模型 [51] 独立地执行了每一步的共同关注,而没有对之前的共同注意力输出进行推理.受内存网
络启发,Nam 等人 [52] 提出通过视觉特征和文本特征共用的内存向量迭代更新视觉特征和文本特征,内存向量是
通过将视觉特征和文本特征求和平均后分别得到视觉向量和文本向量,然后将两个向量相乘后得到的.利用内
存向量与视觉或文本特征结合,分别生成视觉注意力和文本注意力.通过迭代的方式达到了推理的目的,进一步
获得图片和问题的细节.不同于上述的共同注意力模型,Yu 等人 [35] 提出了多模态分解双线性池模型,文本注意
力由问题单独推断,而视觉注意力的推断由文本注意力的参与.Yu 等人认为这与人类的反应一致,人们不需要
借助图片也能抓住问题的重点.为了更好地获得图片中与问题有关的细节,Nguyen 等人 [53] 提出了层级递进的密
集共同注意力的结构,其中使用了多头注意力,生成多个注意力图并将其平均.Yu 等人 [54] 提出的多层次注意力
模型与之前不同的是并没有单独对问题求注意力,而是将注意力分成了语义注意力和上下文注意力,其中:上下

240 241 242 243 244 245 246 247 248 249 250