Page 271 - 《软件学报》2025年第4期

P. 271

王永胜等: 多模态信息抽取研究综述 1677

片信息的融合, 以融合后的多模态特征表示作为 RpBERT 的输入序列, 通过训练两个子任务 (图文关系对分类和
基于关系传播的 MNER) 得到一个端到端的模型 RpBERT. 由于上述基于多模态预训练模型的方法在训练过程中
已经将图文关系作为一个子任务, 因此, 对于 MNER 任务, 不再需要考虑图文关系是否匹配的情况, 这种端到端的
方法为研究者提供了极大的便利.
显然, 上述多模态预训练模型需要大量多模态数据和强大算力的支持, 其成本较大. 因此, Li 等人 [43] 基于
ChatGPT 作为隐式知识库提出了两阶段生成框架 PGIM (prompting ChatGPT in MNER). 该框架首先从利用提示模
板通过 ChatGPT 生成辅助的细粒度知识, 然后将其与原文本拼接, 拼接后的内容继续输入到下游模型得到最终分
类. 该方法可利用 ChatGPT 强大的隐式知识库, 并分别在 Twitter2015 和 Twitter2017 上取得了较好的性能. 此外,
张天明等人 [12] 针对小样本数据提出了一种融合多模态数据的命名实体识别模型, 借助多模态数据提供额外语义
信息, 帮助模型提升预测效果. 该方法主要包含 3 个模块: 首先, 多模态信息提取模块将图片转为文本形式并作为
辅助模态信息输入发射模块; 然后, 由发射模块计算输出对应的发射分数, 转移模块输出对应的转移分数; 最后, 基
于计算出的发射分数和转移分数之和, 将候选标签序列中概率最高的标签序列作为查询样本对应的标签序列并
输出.
用信息来提高

3.2.2 基于跨度分类 (span-based) 的方法
针对 MNER 任务, 主流方法是将其视为一个序列标注任务, 但是这类方法往往存在耗时、实体边界预测不准
确等缺点. 因此, 近年来, 有学者尝试利用 span-based 方法来解决 MNER 任务 [8,39,54] . 该方法的主要思想是: 通过始
末位置的概率分布图将潜在实体的所有可能区域或范围枚举出来, 然后利用深度神经网络对其进行分类 [23] . 其融
合方法主要包含基于注意力机制的前融合方法和基于 POE (product of experts) [55] 的后融合方法.
● 基于注意力机制的前融合方法
Yamada 等人 [56] 通过实验展示了基于跨度分类方法在 NER 任务上的强竞争力. 受此启发, Jia 等人 [8] 通过设计
实体跨度分类预测等子任务提出基于阅读理解的 MNER 模型 (MRC-MNER). 首先通过迁移学习训练一个区域视
觉定位模块 (visual grounding model), 并基于该模块得到与查询相关的 Top-k 个区域图片信息, 然后通过文本内交
互模块和图文间交互模块实现图文充分融合, 最后通过 3 个子任务 (视觉区域权重评估、实体存在性检测和实体
跨度分类预测) 联合训练 MRC-MNER 模型. 由 MRC 框架中特殊的查询设计可提供部分先验信息, 因此, MRC-
MNER 模型通常性能较好. 但是该模型中查询设计是关键步骤, 不同的查询设计可能存在较大的性能差异. Wang
等人 [39] 延续上述工作的思路, 首先将 NER 任务重新表述为识别实体跨度的开始和结束位置索引以及为跨度分配
类别标签这样一个新任务, 然后提出一个基于 Transformer 的先进方法 CAT-MNER. 该框架的重点是图片和文本
进行融合的多头注意力增强部分以及跨度预测部分, 与其他模型相比, CAT-MNER 结构相对简单且易于实现.
● 基于 POE 的后融合方法
上述方法是以有监督方式来解决 MNER 任务, 但是由于大规模多模态数据集存在标注成本高等特点, 近年
来, 半监督或远程监督的方法引起了研究者们的关注. Zhou 等人 [54] 提出基于跨度的多模态变分自编码器 SMVAE
(span-based multimodal variational auto encoder) 来解决 MNER 任务. 该方法首先利用两个变分自编码器分别建模
图片的潜在语义表示和文本的跨度水平表示 (span-level token), 然后引用 POE 来融合图片语义表示和文本跨度表
示, 最终通过融合后的特征来预测每条文本所有跨度的标签. 这样的好处是可以利用预测概率和多模态特征来重
构输入特征表示, 隐式建模跨度标签与多模态特征之间的相关性, 通过这种方式可以利用未标记多模态数据的有
MNER 任务的性能.

3.2.3 基于大模型直接生成的方法
随着语言大模型和多模态大模型相继被提出, 学者们可以直接使用大模型来生成任务的答案 [43,57] . 其中, Li 等
人 [43] 分别提出了直接生成实体的基准模型 VanillaGPT、PromptGPT (N=1) 和 PromptGPT (N=10). VanillaGPT 模
型首先是将图片转为图片-摘要对, 然后将摘要与原文本组合一起通过调用 GPT-3.5-Turbo 直接生成实体. 与
VanillaGPT 模型不同的是, PromptGPT (N=1) 和 PromptGPT (N=10) 模型除了需要组合原文本外, 还需要组合人工
设计的提示模板, 模板的作用是提示模型以便生成更好的答案, 这里的 N 表示为上下文学习选择 Top-N 个相似样

266 267 268 269 270 271 272 273 274 275 276