Page 247 - 《软件学报》2021年第8期
P. 247

包希港  等:视觉问答研究综述                                                                 2529











                                     Fig.6    Overview of bottom-up and top-down attention model
                                          图 6   自底向上和自上而下注意力模型的概述
                 1.2.4    关系注意力方法
                    Wu 等人  [62] 首次提出了关系注意力的概念,现有的大多数工作都集中在融合图像特征和文本特征来计算注
                 意力分布,而不需要在不同图像对象之间进行比较.作为关注的主要属性,选择性取决于不同对象之间的比较.
                 对象间的比较提供了更多信息,能够更好地分配注意力.对图中对象两两之间的关系进行建模,再用注意力机制
                 对这些关系进行筛选.对于比较两个物体之间的关系,就是利用两个物体之间的特征进行差分操作.Cadene 等
                 人 [63] 认为:目前的注意力机制相当于在给定问题的前提下,对每个图像区域打分后做信息加权.由于忽略了图像
                 区域间空间和语义间的关联,所以不能做到有效地推理.Cadene 等人提出了 Murel 单元用于挖掘问题和图像区
                 域间的细粒度关联,通过区域间关系的建模达到推理的目的,最后输出每个图像区域上下文感知的编码信息.如
                 图 7 所示,通过对图像区域间的关系建模来获得上下文感知的嵌入特征.










                                                Fig.7    Overview of Murel cell [63]
                                                  图 7   Murel 模块概述  [63]

                    图卷积网络(graph convolutional  network,简称 GCN)是最近的研究热点,Li 等人       [64] 将图卷积网络应用至视
                 觉问答任务.Li 等人认为,对象间视觉关系可以分为 3 大类:对象间的语义关系,主要体现为某个动作,比如孩子
                 “吃”三明治;对象间的空间关系,主要体现两个对象间的相对位置,比如孩子和三明治“相交”(图像中的位置).以
                 上两种关系被称为显式关系,因为它们是可以被明确命名的.但还有一些关系是无法语言表达,却对模型正确回
                 答问题有重要帮助,称之为隐式关系.论文中用不同的图对 3 种关系建模,针对每一种关系训练一个关系编码器,
                 最终将 3 个编码器进行综合,形成一个集成模型.
                    注意力方法与联合嵌入方法相比,显著地提高了模型在数据集上的准确率;同时,通过分析关于图像的注意
                 力权重可以发现,模型会更关注于图像中与问题有关的区域,提供了回答问题的合理性.但是从问题类型中分析
                 可以发现,注意力方法对于是/否问题的回答几乎没有帮助.注意力方法在回答问题的过程中没有进行推理的过
                 程,仅仅是获得了更准确的视觉特征或文本特征.如何将视觉特征纳入推理的过程,仍需要进一步研究.
                 1.3   组合方法
                    上述方法中,主要是利用卷积神经网络和循环神经网络提取特征进行融合,训练过程缺乏具体推理的过程.
                 而视觉问答任务本身是构成性的,比如问题“桌子上放的是什么?”,首先需要确定桌子的位置,然后需要确定桌
                 子上方的位置,然后在桌子上方确定目标物体以及物体的类型.于是,有研究提出模块化网络解决视觉问答任
                 务,针对不同的功能设计不同的模块,根据不同的问题将模块连接.模块化网络更易于监督,同样也提供了回答
                 问题的可解释性,符合人类问答问题的逻辑思路.
                    Andreas 等人 [65] 首先将神经模块网络应用于视觉问答任务,其结构不同于传统的神经网络模型.神经模块
   242   243   244   245   246   247   248   249   250   251   252