Page 262 - 《软件学报》2025年第4期

P. 262

1668 软件学报 2025 年第 36 卷第 4 期

型以及不同的论元, 从而导致事件抽取的结果错误. 但是, 结合文本附随的图片中出现“圆形会议桌”和“笔记本电
脑”等实体信息, 很容易判断文中的“confront”是“开会”的意思.

Ford was in his rush to confront
members in Toronto.

Meet Event
MEE Trigger: confront
Entity: Ford, members
Place: Toronto

图 4 MEE 任务

多模态事件抽取 MEE 的定义为: 给定文本序列 S = {w 1 ,w 2 ,...,w n } 和文本附随的图片序列 M = {p 1 , p 2 ,..., p n } ,
目标为抽取一个多模态事件触发词集合 V = {v 1 ,v 2 ,...,v n } 和一个多模态事件论元集合 A = {a 1 ,a 2 ,...,a n } . 其中, 每个
F1 值来评价模型性能的优劣.
v
,
事件 v i 可表示为 v = (y v ,{g, p}) g 和 p 分别为文本触发词和图片事件提及, y v 表示事件的事件类型. 若 g 和 p 同
时存在, 则表示图片事件和文本事件指向同一事件, 此时, 定义该事件为一个多模态事件 (multimodal event); 若只
存在 g , 则定义该事件为仅文本事件 (text-only event); 若只存在 p , 则定义该事件为仅图片事件 (image-only event).
相应地, 每个论元 a i 可表示为 a = (y a ,{u,o}) , 其中 u 表示文本实体, o 表示图片中的目标实体 (一般用矩形框在图
a 的语义角色. 若图片事件和文本事件指向同一事件, 则合并它们对应的论元为一个多模
片中标出), y a 表示论元
态事件论元 (multimodal argument); 否则, 分开表示它们对应的论元 [13] . 图 4 为 MEE 任务的一个样例.

1.4 评价指标
针对多模态信息抽取任务, 模型性能的主要评估指标包括: 正确率 (accuracy, Acc)、准确率 (precision, Pre)、
召回率 (recall, Rec) 以及 F1 值 [23] . 正确率表示在预测结果中所有预测正确的样本占总样本的比值, 即:

TP+TN
Acc = (1)
TP+ FP+TN + FN
FP 表示将负例预测为正的样
其中, TP 表示将正例预测为正的样本数量, TN 表示将负例预测为负的样本数量,
本数量, FN 表示将正例预测为负的样本数量.
准确率表示将样本中正例预测为正的样本数量占所有样本预测为正的样本数量的比值, 即:

TP
Pre = (2)
TP+ FP
召回率表示将样本中正例预测为正的样本数量占所有真实值为正的样本数量的比例, 即:

TP
Rec = (3)
TP+ FN
F1 值表示综合考虑准确率和召回率后的数值, 即:

2Pre×Rec
F1 = (4)
Pre+Rec
一般情况下, F1 值可以从宏观上直接评价多模态信息抽取模型性能的优劣, 本文后面的章节中也有多处是直
接使用

2 多模态表示和融合

在多数多模态相关任务中, 多模态表示和融合都是建立模型的关键步骤之一. 多模态表示通常包含文本特征
表示和图片特征表示. 文本特征表示关注如何抽取文本才能获得更好的文本特征, 图片特征表示关注如何抽取图
片才能获得更好的图片特征. 多模态融合即通过融合策略将 2 个 (或多个) 模态特征表示整合为 1 个多模态特征
表示, 多模态融合关注如何通过其他模态 (如图片) 来增强文本的语义表示以便获得更好的模型性能. 本节将从多

257 258 259 260 261 262 263 264 265 266 267