Page 261 - 《软件学报》2025年第4期

P. 261

王永胜等: 多模态信息抽取研究综述 1667

机构名、事件、货币和百分比等) 进行正确分类 [5] . 虽然命名实体识别任务在大多数数据集上已经取得了较大成
功 [18,19] , 但在短文本上定位和分类其中的实体仍然存在挑战. 如图 2 所示: 基于文本的命名实体识别模型很难判断
“I love Alibaba”中的“Alibaba”是一个人名还是公司组织名称, 但是根据文本附随的图片可以很容易判断“Alibaba”
是一个人名, 其实体类型为“Person”.

MNER <3,3,Person> Alibaba

图 2 MNER 任务

MNER 旨在通过输入端引入与文本相关的其他模态信息作为文本态的补充, 从而提高文本实体识别的性能.
MNER 是多模态信息抽取任务中一个重要的子任务, 近年来引起了研究者们的广泛关注. 通常, 将 MNER 定义为
M = {p 1 , p 2 ,..., p n } 和预先定义的实体类
一个序列标注任务: 给定文本序列 S = {w 1 ,w 2 ,...,w n } , 文本附随的图片序列
e
型 T , MNER 模型输出三元组列表 < E s ,E d ,t > , 每一个三元组都包含一个实体的信息. 其中, w i 表示一个句子;
e
p i 表示一张文本附随的图片; E s ∈ [1,n] E d ∈ [1,n] , 分别表示实体的开始位置索引和结束位置索引; t ∈ T 表示
,
实体 e 的实体类型 [20] . 图 2 为 MNER 的一个样例.

1.2 多模态实体关系抽取
和命名实体识别任务类似, 虽然实体关系抽取任务在大多数数据集上取得了较大成功 [10,21] , 但在短文本上判
断两个实体的关系仍然存在挑战. 如图 3 所示: 如果仅仅给出文本序列“Tobey doesn’t like eating with Leonardo.”,
基于文本的实体关系抽取模型可能将“Tobey”和“Leonardo”的关系识别为“family”, 从而导致实体关系抽取的结
果错误. 而根据随文图片中出现的“警服”和“警帽”等信息, 结合文本很容易得出“Tobey”和“Leonardo”的关系为
“colleague”.
M = {p 1 , p 2 ,..., p n } 分别为给定文本序列和随文的图片序列;
Tobey doesn’t like eating with Leonardo.

R={r 1 ,r 2 ,...,r n }

MERE <colleague, Tobey, Leonardo>

图 3 MERE 任务

[16]
MERE 是指在输入端引入图片的情况下, 抽取文本中两个实体之间的语义关系. 给定一个序列 < e 1 ,e 2 ,S, M >
r
和预先定义的实体关系类别集合 R , MERE 的目标是预测两个实体 e 1 和 e 2 之间的关系 . 其中, S = {w 1 ,w 2 ,...,w n } ,
r ∈ R . 图 3 为 MERE 任务的一个样例.

1.3 多模态事件抽取
文本事件抽取任务是指从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并将其以结构化的形
式表示 [22] . 具体来讲, 是通过模型识别出事件触发词、事件类型和事件元素, 并给这些事件元素分配角色. 事件抽
取同样面临诸多挑战, 如图 4 所示: 如果仅给定文本序列“Ford was in his rush to confront members in Toronto”, 由于
文本较短, 上下文缺乏证据支持此处的“confront”是“攻击”还是“开会”的意思, 不同含义可能对应着不同的事件类

256 257 258 259 260 261 262 263 264 265 266