Page 246 - 《软件学报》2021年第8期
P. 246

2528                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                 文注意力为以问题为引导的视觉注意力;语义注意力是通过卷积神经网络提取图片中的主要概念,将筛选出的
                 概念与问题结合,形成语义概念注意力,即选出与问题相关的概念.不同于之前的方法,Wang 等人                              [55] 提出了一种
                 序列共同注意力方法,模型的输入为〈问题,事实,图像〉三元组,首先利用问题对事实进行加权,然后将加权的事实
                 和初始问题表示相结合以指导图像加权.然后将加权的事实和图像区域一起用于指导问题进行加权,最后用问
                 题和图像的注意力权重对事实再次进行加权构成整个循环.这意味着每一个注意力加权的过程都利用了其他
                 过程的输出.Wu 等人      [56] 在视觉对话的研究中同样用到了序列共同注意力方法,其输入为〈问题,历史对话,图像〉
                 的三元组,对 3 个输入进行互相加权,最后利用对抗生成算法使得生成的答案更像人类的回答.
                    共同注意方法学习了多模态实例的粗糙交互,而所学习的共同注意力不能推断出每个图像区域和每个问
                 题词之间的相关性,这导致了共同注意模型的显著局限性.Yu 等人                     [57] 认为,深度共同注意模型的瓶颈在于在每
                 个模态中同时建模密集的自我注意(即问题的词对词关系和图像的区域对区域关系).他们提出了模块化共同关
                 注网络(modular co-attention networks),如图 5 所示,通过共同注意力机制更新视觉特征和文本特征.网络框架的
                 设计灵感来自于 Transformer 模型    [58] ,模型设置了两个注意力单元,其中一个为自注意力单元进行模态内部交互
                 和导向注意力单元进行模态之间交互.利用一个协同注意力模块层将两个单元串联起来,最后将多个模块层串
                 联起来,组成 MCAN 网络.Gao 等人       [59] 认为:对视觉模态来说,每个图像区域不应该仅获得来自问题文本的信息,
                 而且需要与其他图像区域产生关联.比如:对于“谁在滑板上?”这样的问题,模型应该把滑板对应的区域和滑板
                 上方的区域关联起来;而对文本模态来说,使各个单词之间互相产生联系有助于提高模型对问题的理解.Gao 等
                 人 [59] 同时考虑了模态内部关系和跨模态关系,分别构建了模态内部注意力单元和跨模态注意力单元更新视觉
                 特征和文本特征.











                                  Fig.5    Overall flowchart of the deep modular co-attention networks [57]
                                           图 5   深度模块共注意网络的总体流程图            [57]
                 1.2.3    检测注意力方法
                    此前的图像注意力是基于卷积神经网络特征,这相当于把图片均等分割成若干区域,然后对其进行筛选.由
                 于图片的分割,难免会破坏原有的对象,比如一个对象被分割为多个区域,如图 3 中左侧图像所示.Anderson 等
                 人 [24] 利用目标检测网络 Faster R-CNN  [25] 来实现自底向上的注意力,将图片分割成一个个具体的对象来进行筛
                 选,选择图片中前 K 个提议作为视觉特征,如图 6 中左侧图像所示,通过提取图中多个对象作为输入视觉特征.
                 目前的主流模型均采用自底向上注意力生成的视觉特征.自上而下注意力即问题特征与各个提议的特征连接
                 之后,通过非线性层和线性层得到视觉注意力,视觉注意力与视觉特征相乘得到更好的特征.Teney 等人                                [60] 在此
                 基础上对模型进行改进,采用多个技巧,如:分类器中使用 sigmod 输出,而不是传统的 softmax 输出,这样可以保证
                 一个问题可能有多个正确答案;使用软分数作为地面真相目标,把任务作为候选答案分数的回归,而不是传统的
                 分类;在所有非线性层中使用门控 tanh 激活函数;在随机梯度下降过程中使用大量小批次和对训练数据进行智
                 能改组.
                    Lu 等人 [61] 并没有放弃原来那种基于卷积神经网络特征的开放式注意力(free-form attention),而是将开放式
                 注意力与检测注意力结合,形成新的共同注意力.检测注意力作用受限于其检测类别的广度,如对于“今天天气
                 怎么样?”这样的问题,如果目标检测网络不检测“天空”这个对象,则模型无法对这一问题做出准确回答.而开放
                 式注意力就显示出了优势,因此,这两种注意力应是互补的.
   241   242   243   244   245   246   247   248   249   250   251