Page 278 - 《软件学报》2025年第4期

P. 278

1684 软件学报 2025 年第 36 卷第 4 期

地, 为每个图片找到最匹配的句子并融合两个模态的特征然后输入图片事件分类器进行事件和论元分类; 最终若
两个事件的事件类型相似度超过阈值, 则合并两个事件为一个多模态事件. 在上述方法中, 首先使用基于目标检测
的方法来构建图片模态的结构图, 其多模态事件抽取方法命名为 WASE obj , 但是由于该目标检测方法是在 Open
Images 数据集上训练得到的, 通过该方法得到的检测结果是一个有限的集合, 无法实现新的实体类型的检测. 因
此, 进一步提出了基于注意力机制构建图片模态的结构图, 并将该多模态事件抽取方法命名为 WASE att . 两种方法
2 2
在多模态数据集 M E 上的性能对比如表 13 所示: 在事件触发词抽取的子任务上, WASE ob 显著优于 WASE att ; 在
j
事件论元抽取的子任务上, WASE at 的性能要略优于 WASE obj . 因此, 在不同的子任务上, 两种方法表现出不同的
t
优势.

Training phase Testing phase
ACE text event
imSitu image event imSitu image event
Liana Owen Alignment
[Participant] drove from destroying [Conflict.Attack] For the rebels, bravado goes
50.8
Pennsylvania toattend VOA image- Item [Target]: shipTool
hand-in-hand with the
[Contact.Meet] the rally in caption pairs [Instrument]: bomb desperate resistance the
Manhattan with her parents insurgents have mounted...
[Participant].
Cross-media structured common representation encoder
entity region trigger image image trigger image entity region
... ...
... ...
Liana Owen attend resistance insurgents

Cross-media shared event classifier
Contact.Meet Conflict.Attack
Conflict.Attack

Cross-media shared argument classifier
Contact.Meet Conflict.Attack Conflict.Attack Conflict.Attack
Participant Instrument Attacker Instrument
图 10 WASE 框架总览 [13]

2 2
表 13 多模态事件抽取模型在数据集 M E 上的性能对比 (%)

触发词论元
模型
Pre Rec F1 Pre Rec F1
[13]
WASE att 38.2 67.1 49.1 18.6 21.6 19.9
[13]
WASE obj 43.0 62.1 19.5 18.9 19.2
[84]
CLIP-Event 41.3 72.8 52.7 21.1 13.1 17.1
UniCL [14] 44.1 67.7 53.4 24.3 22.6 23.4
CAMEL [70] 55.6 59.5 57.5 31.4 35.1 33.2
GPT3.5 [85] 17.78 31.31 19.56 10.77 21.62 12.11
GPT3.5/SC [85] 12.62 17.77 11.49 7.9 8.62 6.95

Liu 等人 [14] 进一步改进上述弱对齐框架, 提出了统一对比学习框架 UniCL (unified contrastive learning
framework). 与 WASE 框架的空间表示部分相同, 首先通过引导匹配的图文对获得比不匹配图文对更高的分数这
样的方式来学习图文的公共表示空间; 不同的是, 在图片事件抽取部分, 研究人员基于查询的策略, 将预先定义好

273 274 275 276 277 278 279 280 281 282 283