Page 266 - 《软件学报》2025年第4期
P. 266

1672                                                       软件学报  2025  年第  36  卷第  4  期


                 导致图文之间的信息交互不充分, 进而导致与单模态模型相比, 多模态模型的性能提升有限, 甚至在某些指标上略
                 差于单模态模型      [4,6,7] .
                    ● 基于注意力和门控机制的多模态融合. 为了缓解通过上述图文拼接的多模态融合方式导致的图文交互不充
                 分问题, 一些研究者开始使用跨模态注意力机制, 使得融合的过程中模型更关注重要的信息                             [4,6−9,17,24,26] . 具体来讲,
                 Lu  等人  [4] 提出了基于视觉注意力模型. 该模型可以通过文本引导的视觉注意力来决定图片中的哪一块区域与文
                 本  h t  交互. 模型可关注到图片中的重要区域. 但是上述模型仍然不知道文本中哪些词与                   h t  最相关, 因此, Zhang 等人  [7]
                 进一步提出了自适应共注意力网络            (adaptive co-attention network), 继续通过图片引导的文本注意力来决定文本中
                 哪些词参与图片的交互, 通过视觉注意力和文本注意力共同捕获不同模态之间的语义交互. 此外, Tong                              等人  [17] 基
                 于注意力机制提出了双循环多模态模型              DRMM (dual recurrent multimodal model). 该模型中包含  N  个交替双重注
                 意力模块   ADA (alternating dual attention), 每个  ADA  模块内部通过注意力机制分别对文本和图片进行更新, 通过
                 N  个  ADA  模块不断迭代的方式对图文模态进行细粒度交互, 最终得到图片和文本融合后的多模态特征.
                    虽然通过上述融合策略, 任务模型在多数数据集上取得了较好的性能                        [6,8] . 但是, 当数据集中存在较多图文不
                 相关的数据对时, 仅通过注意力机制的融合策略对任务模型的性能提升有限. 为了缓解上述问题, 有研究提出在注意
                 力机制上加入门控      (gate) 机制来动态融合文本特征和图片特征, 动态融合的过程可以通过权重来控制                      [4,7,9,24,26,32,39,40] .
                 其中, Chen  等人  [40] 提出一个基于  Transformer 架构的分层视觉前缀融合网络        HVPNeT (hierarchical visual prefix
                 fusion network), 当两种模态融合时, 将预训练模型       ResNet 得到的分层图像特征分别融合到           Transformer 各层中,
                 具体做法为: Transformer 每个层通过一个注意力模块来融合, 其各个网络层之间的融合通过动态门控机制来控制.
                 此外, Wang  等人  [39] 进一步细化  Transformer 的多头注意力层, 基于外部知识提出增强跨模态注意力框架                (refined
                 multimodal attention). 首先通过外部知识来扩展预定义的实体类型标签库, 并通过这些实体标签来识别任务的显
                 著性特征, 然后利用这些特征的显著性分数来增强跨模态注意力的权重, 这样的好处是让模型关注与任务高度相
                 关的特征, 同时也实现了模态间较好的交互.
                    上述方法主要通过文本中的单个单词来捕获视觉注意力, 忽略了模态内部的交互, 因此, Arshad                           等人  [24] 首先
                 通过自注意力捕获文本态内部的对齐关系, 然后通过文本态的多个单词来引导视觉注意力. Wu                              等人  [25] 将自注意
                 力和引导注意力组合成一个密度共注意力模块                 (dense co-attention). Yu  等人  [26] 组合标准  Transformer 层和跨模态
                                                        (unified multimodal Transformer, UMT). 通过上述方法可实现模
                 注意力提出了一个统一的多模态           Transformer 框架 等人
                 态内部和模态间的交互, 使得跨模态融合更充分.
                    ● 基于图模型的多模态融合. 区别于上述基于注意力和门控机制的融合方法, 图模型可在复杂的异构数据上
                 建模且具有一定的关系推理能力和可解释性. Zhang              等人  [15] 在多模态命实体识别任务中提出了基于图模型的多模
                 态融合方法. 其中, 文本实体       (或者图片中的目标实体) 作为图模型中的节点, 文本实体                  (或者图片中的目标实体)
                 之间的内部关系以及文本实体和图片中的目标实体之间的外部关系作为图模型的边, 通过图模型的边将各个节点
                 连接来实现多模态的语义交互. 具体地, 为了捕获相同模态的上下文关系, 研究人员将任何相同模态的节点都通过
                 模态内的边    (intra-modal edge) 连接; 同时, 为了捕获模态间的关系, 研究人员做出如下规则: 如果图片中的某个目
                 标实体与文本中的名词短语存在强对应关系, 则将该目标实体节点与对应的文本实体节点                               (名词短语) 通过模态
                 间的边   (inter-modal edge) 连接; 否则, 通过模态间的边将该目标实体节点与所有文本实体节点连接. 通过上述方法
                 构建了一个完整的图模型, 同时实现了模态内和模态间的交互. 上述方法中, 虽然在模态内部之间建立了上下文关
                 系, 但是缺乏针对性. 为了解决上述问题, Zhao             [33] 首先通过以下规则建立模态内各实体之间的关系: 若图片中
                 包含相同的目标实体类型, 则两个目标实体之间通过边来连接; 否则, 两个目标实体之间不连接. 然后通过图文摘
                 要描述   (image-caption) 模块将图片转为对应的文本描述, 比较与文本之间的相似度来建立文本内各实体之间的关
                 系, 最终通过上述方法构建的图模型实现了模态间和模态内的交互. 此外, Zheng                     等人  [31] 提出了一个基于双图对齐
                 的多模态神经网络方法        MEGA (multimodal neural network with efficient graph alignment). 该方法首先通过依存树
                 工具和预训练的场景图模型分别构造文本表示图和图片表示图, 然后通过图对齐方法分别从结构相似度和语义相
   261   262   263   264   265   266   267   268   269   270   271