Page 265 - 《软件学报》2025年第4期

P. 265

王永胜等: 多模态信息抽取研究综述 1671

直接连接得到一个图片映射到文本空间的特征表示. 此外, 受 Li 等人 [35] 启发, MRC (machine reading compre-
hension) 具备稳定的语言理解能力, 因此, Jia 等人 [8] 引入 MRC 框架, 首先为每个文本实体设计了合适的查询规则,
然后基于给定查询使用视觉定位工具得到图片中 Top-k 个候选目标特征. 因为每个文本实体类型对应的查询经过
特殊设计, 相较于文献 [15], 此处得到的候选目标特征包含更多的先验知识.

Input image MASK RCNN Guiding object Visual object
embedding
Person:
0.999
Trophy: ...
0.997
Tie:
0.980
...
图 6 目标检测工具 MASK RCNN 的一个样例 [25]

● 基于情境图的特征表示. 上述图片特征表示方法在动作识别和目标识别等简单任务场景上性能表现较好.
策略中由于两种模态间的交互不充分导致任务模型的性能提升非常有限, 甚至没有提升的效果, 因此, 该方法常常
但是对于多模态事件抽取等复杂任务, 常常涉及实体嵌套和图文事件同指等复杂场景, 基于情境图的方法可同时
识别图片中的目标实体以及实体之间的关系, 对于理解图片中的整体场景很有帮助. 因此, 有研究工作是将基于目
标检测构建的情景图作为图片的特征表示 [13,31] . 其中, Li 等人 [13] 首先采用 VGG-16 [36] 检测出图片中所有实体作为
候选论元, 并采用 MLP (multi-layer perceptron) 预测一个动词编码和所有实体的名词编码, 然后通过比较 imSitu 数
据集 [37] 的所有动词和名词, 对动词编码和名词编码进行分类, 最终构建成中间节点为动词, 邻居节点分别为实体
类型和论元角色的基于目标实体的结构图. Zheng 等人 [31] 也采用类似的流程构建结构图, 最终通过上述方法在任
务模型上均取得了较好的性能. 上述各种图片特征表示方法的优缺点比较如表 2 所示.

表 2 各种图片特征表示方法的优缺点比较

多模态信息抽取领域的
视觉特征表示优点缺点
代表性模型
可捕获图片的全局信息, 计算效
整图特征表示容易引入图片中与文本实体不相关的噪声文献[4]
率高
可捕获图片中不同区域的局部特特征质量依赖区域选择, 能够捕捉到的区域 UMT-BERT-CRF [ 26 ] ,
区域特征表示 [28]
征, 可缓解噪声问题上下文关系有限 MAF
基于目标实体的可进一步明确图片中目标实体的复杂场景中目标实体识别困难, 且难以捕捉 OCSGA [25] , ITA [27]
特征表示语义信息, 缓解噪声问题目标实体之间的关系
基于情境图是特可同时识别图片中的实体及实体构建该图难度高, 依赖物体检测和关系推断 MEGA [31] , WASE [13]
征表示之间的关系, 从而建模复杂场景的准确性

2.3 多模态融合

多模态的特征融合也是多模态信息处理的关键步骤之一 [5] . 多模态融合是指将多个模态特征表示整合成为一
个多模态特征表示. 在多模态信息抽取任务的预测过程中, 单个模态通常不能包含产生精确预测结果所需的全部
有效信息, 而多模态交互过程融合了来自两个或多个模态的信息, 可以提升模型预测结果的精度以及模型的鲁棒
性 [38] . 早期的前融合方法包含将两种模态特征直接相加以及点乘等, 虽然这种融合方法简单易实现, 但是该融合

被用来作为多模态模型的基准. 目前主流的工作是通过基于神经网络的方法来实现两种模态的融合, 主要包含: 基
于注意力和门控机制的多模态融合、基于图模型的多模态融合以及基于多模态预训练模型的多模态融合方式.
● 图文特征拼接的多模态融合. 通过上述各类特征表示方法可分别得到文本的特征表示和图片的特征表示,
一类最容易考虑到的融合方法便是通过直接拼接的方法将两种特征表示进行融合, 在早期的文献中, 多数研究者
通过直接拼接的方法来融合图文特征, 并将该多模态特征得到的结果作为多模态方法的基准. 与纯文本相比, 融合
后的多模态特征可在一定程度上弥补短文本缺失的内容. 但正是由于此类方法简单易实现, 这种粗暴的融合方式

260 261 262 263 264 265 266 267 268 269 270