Page 269 - 《软件学报》2025年第4期
P. 269
王永胜 等: 多模态信息抽取研究综述 1675
于 Transformer 的注意力机制提出各种变体来提高 MNER 任务上的性能 [4,7,9,24−28,40,47,48] . 其中, Zhang 等人 [7] 在
LSTM 网络层与 CRF 层之间加入一个自适应共注意力网络模块 (adaptive co-attention network). 模型中的图片注
意力模块可以基于预测来捕获与 t 时间步长的单词最相关的图片区域, 文本注意力模块则可以基于预测来捕获与
t 时间步长的单词最相关的其他单词. 该模型在所提数据集上取得了较好的性能表现. 同年, Lu 等人 [4] 则在 LSTM
网络层之前加入视觉注意力模块 (visual attention model). 该模块可以提取图片中与输入文本最相关的区域图片特
征, 忽略掉图片中噪声信息, 然后通过视觉调制门 (visual modulation gate) [49] 动态地融合文本特征和区域图片特征,
最终在所提出的数据集 Twitter 上也取得了不错的性能表现. Arshad 等人 [24] 基于多维注意力 (multi-dimensional
attention) [50] 提出了一个可同时实现模态内融合和跨模态融合的端到端模型, 首先计算文本中两个词之间的对齐分
数, 然后将该分数作为查询继续计算与图片中各区域的对齐分数; 以此类推, 直至提取出所有与文本相关的区域图
片特征. 通过该方法提取的区域图片特征与文本相关度更高, 最终 F1 值比基线 [7] 提高了 2.22%. Chen 等人 [9] 在此
模型基础上进一步细化, 通过引入外部知识库查询图片的属性等知识, 然后将这些外部知识用同样的方法融合
到文本特征, 模型性能得到进一步提升. Wang 等人 [47] 提出了一个基于多模态检索的框架 MoRe (multi-modal
[48]
retrieval based framework), 首先基于维基百科 (Wikipedia) 建立一个知识库 (knowledge corpus), 然后利用文本检索
器检索知识库中最相关的段落, 利用图像检索器检索包含最相关图片的描述性文档; 由于检索得到文本的长度通
常很大, 所以将两部分检索结果分别作为基于文本检索模型和基于图片检索模型的输入, 通过 MOE (mixture of
experts) 模块来融合两个模型的概率分布, 最后输入 CRF 层做最终的预测. 引入外部知识的好处是可为模型提
供更多信息, 缺点是检索过程可能引入噪声, 导致错误传播. 这类方法对知识库的构建以及检索条件的设计要求
较高.
虽然上述方法通过各种融合策略提升了 MNER 性能, 但是未考虑到图片中的目标实体与文本中实体的对应
关系. 因此, Chen 等人 [40] 提出一个基于 Transformer 架构的分层视觉前缀融合网络 HVPNeT, 该模型同时考虑了图
片的整体特征和图片中的目标实体特征; 整体特征可以表达更抽象的概念, 目标实体特征可提供更多语义知识, 模
型中, 将图片特征表示视为可插拔的前缀来引导文本特征表示做出正确预测. 此外, Wu 等人 [25] 提出 OCSGA
(object embeddings+textual representations+self-attention+guide-attention) 模型, 首先通过目标检测得到图片中各目
标实体对应的文本标签, 并将该标签编码成和文本同样维度的特征向量, 然后基于密度共注意力层 (dense co-
attention module) 找到与文本相关的图片目标特征, 并过滤掉不相关的图片特征, 最终将融合后的特征输入 CRF
层得到实体分类.
尽管上述方法通过引入图片信息有效缓解了实体类型多样化问题, 但是句子中往往仅有部分实体与图片中的
目标对应, 导致模型过于重视图片中出现的文本实体而忽视图片中未出现的文本实体, 该现象被称为视觉偏差
(visual bias). 为了缓解上述问题, Yu 等人 [26] 在 Transformer 基础上进一步引入基于纯文本的辅助模块, 通过该辅助
模块的一个转换矩阵引导模型最终做出正确预测. 该方法分别在两个数据集 Twitter2015 和 Twitter2017 上提供了
两个强竞争力的基线, 后续多数工作都与这两个基线进行了比较. Wang 等人 [27] 基于 Transformer 提出了 ITA
(image-text alignment) 框架, 考虑到文本表示对于 MNER 任务的重要性更大, 因此, 通过 3 个辅助任务将图片映射
到文本空间, 然后与原文本连接, 作为 Transformer 编码层的输入, 这样的好处是将图文表示尽可能统一到同一语
义空间, 最终通过 CRF 层实现实体分类. Lu 等人 提出一个基于 Transformer 的扁平多模态融合框架 FMIT (flat
multi-modal interaction Transformer), 如图 7 所示. 首先利用句子中的名词短语和普通领域词来获取视觉线索, 然后
将图片和文本的细粒度语义表示转换为统一的晶格结构, 并设计一种新的相对位置编码来匹配 Transformer 层的
不同模态. 此外, 还引入一个实体边界检测模块作为辅助任务, 最终通过 CRF 层实现实体分类. 通过上述方法可缓
解视觉偏差问题, 在 Twitter2015 和 Twitter2017 上均取得了较好的性能表现.
上述基于注意力的方法是建立在给定的图文对是相关的基础上, 当图文不相关或者图片模糊导致无法判断图
文是否相关时, 基于注意力机制的模型也显得力不从心. 引入与文本不相关的图片信息会增加新的不确定性, 甚至
会起到相反的作用, 而 Vempala 等人 [51] 统计显示: 33.8% 的推文存在图文不相关或者弱相关的情况. 基于以上原