Page 247 - 《软件学报》2021年第8期
P. 247
包希港 等:视觉问答研究综述 2529
Fig.6 Overview of bottom-up and top-down attention model
图 6 自底向上和自上而下注意力模型的概述
1.2.4 关系注意力方法
Wu 等人 [62] 首次提出了关系注意力的概念,现有的大多数工作都集中在融合图像特征和文本特征来计算注
意力分布,而不需要在不同图像对象之间进行比较.作为关注的主要属性,选择性取决于不同对象之间的比较.
对象间的比较提供了更多信息,能够更好地分配注意力.对图中对象两两之间的关系进行建模,再用注意力机制
对这些关系进行筛选.对于比较两个物体之间的关系,就是利用两个物体之间的特征进行差分操作.Cadene 等
人 [63] 认为:目前的注意力机制相当于在给定问题的前提下,对每个图像区域打分后做信息加权.由于忽略了图像
区域间空间和语义间的关联,所以不能做到有效地推理.Cadene 等人提出了 Murel 单元用于挖掘问题和图像区
域间的细粒度关联,通过区域间关系的建模达到推理的目的,最后输出每个图像区域上下文感知的编码信息.如
图 7 所示,通过对图像区域间的关系建模来获得上下文感知的嵌入特征.
Fig.7 Overview of Murel cell [63]
图 7 Murel 模块概述 [63]
图卷积网络(graph convolutional network,简称 GCN)是最近的研究热点,Li 等人 [64] 将图卷积网络应用至视
觉问答任务.Li 等人认为,对象间视觉关系可以分为 3 大类:对象间的语义关系,主要体现为某个动作,比如孩子
“吃”三明治;对象间的空间关系,主要体现两个对象间的相对位置,比如孩子和三明治“相交”(图像中的位置).以
上两种关系被称为显式关系,因为它们是可以被明确命名的.但还有一些关系是无法语言表达,却对模型正确回
答问题有重要帮助,称之为隐式关系.论文中用不同的图对 3 种关系建模,针对每一种关系训练一个关系编码器,
最终将 3 个编码器进行综合,形成一个集成模型.
注意力方法与联合嵌入方法相比,显著地提高了模型在数据集上的准确率;同时,通过分析关于图像的注意
力权重可以发现,模型会更关注于图像中与问题有关的区域,提供了回答问题的合理性.但是从问题类型中分析
可以发现,注意力方法对于是/否问题的回答几乎没有帮助.注意力方法在回答问题的过程中没有进行推理的过
程,仅仅是获得了更准确的视觉特征或文本特征.如何将视觉特征纳入推理的过程,仍需要进一步研究.
1.3 组合方法
上述方法中,主要是利用卷积神经网络和循环神经网络提取特征进行融合,训练过程缺乏具体推理的过程.
而视觉问答任务本身是构成性的,比如问题“桌子上放的是什么?”,首先需要确定桌子的位置,然后需要确定桌
子上方的位置,然后在桌子上方确定目标物体以及物体的类型.于是,有研究提出模块化网络解决视觉问答任
务,针对不同的功能设计不同的模块,根据不同的问题将模块连接.模块化网络更易于监督,同样也提供了回答
问题的可解释性,符合人类问答问题的逻辑思路.
Andreas 等人 [65] 首先将神经模块网络应用于视觉问答任务,其结构不同于传统的神经网络模型.神经模块