Page 278 - 《软件学报》2025年第4期
P. 278

1684                                                       软件学报  2025  年第  36  卷第  4  期


                 地, 为每个图片找到最匹配的句子并融合两个模态的特征然后输入图片事件分类器进行事件和论元分类; 最终若
                 两个事件的事件类型相似度超过阈值, 则合并两个事件为一个多模态事件. 在上述方法中, 首先使用基于目标检测
                 的方法来构建图片模态的结构图, 其多模态事件抽取方法命名为                      WASE obj , 但是由于该目标检测方法是在        Open
                 Images 数据集上训练得到的, 通过该方法得到的检测结果是一个有限的集合, 无法实现新的实体类型的检测. 因
                 此, 进一步提出了基于注意力机制构建图片模态的结构图, 并将该多模态事件抽取方法命名为                              WASE att . 两种方法
                               2 2
                 在多模态数据集      M E 上的性能对比如表       13  所示: 在事件触发词抽取的子任务上, WASE ob 显著优于           WASE att ; 在
                                                                                       j
                 事件论元抽取的子任务上, WASE at 的性能要略优于             WASE obj . 因此, 在不同的子任务上, 两种方法表现出不同的
                                            t
                 优势.

                                      Training phase                               Testing phase
                      ACE text event
                                                      imSitu image event         imSitu image event
                        Liana Owen     Alignment
                    [Participant] drove from           destroying [Conflict.Attack]  For the rebels, bravado goes
                                                              50.8
                     Pennsylvania toattend   VOA image-  Item [Target]: shipTool
                                                                              hand-in-hand with the
                   [Contact.Meet] the rally in   caption pairs  [Instrument]: bomb  desperate resistance the
                   Manhattan with her parents                               insurgents have mounted...
                       [Participant].
                                             Cross-media structured common representation encoder
                     entity     region      trigger      image image       trigger  image   entity  region
                            ...        ...
                                                                                               ...    ...
                       Liana Owen               attend                   resistance         insurgents


                                                     Cross-media shared event classifier
                                          Contact.Meet  Conflict.Attack
                                                                            Conflict.Attack

                                                 Cross-media shared argument classifier
                   Contact.Meet  Conflict.Attack                                       Conflict.Attack  Conflict.Attack
                    Participant  Instrument                                             Attacker  Instrument
                                                  图 10 WASE   框架总览   [13]

                                                                    2 2
                                    表 13  多模态事件抽取模型在数据集           M E 上的性能对比      (%)

                                                 触发词                                 论元
                        模型
                                       Pre        Rec         F1          Pre         Rec         F1
                           [13]
                      WASE att         38.2       67.1        49.1        18.6       21.6        19.9
                            [13]
                      WASE obj         43.0       62.1                    19.5       18.9        19.2
                            [84]
                     CLIP-Event        41.3       72.8        52.7        21.1       13.1        17.1
                      UniCL [14]       44.1       67.7        53.4        24.3       22.6        23.4
                      CAMEL [70]       55.6       59.5        57.5        31.4       35.1        33.2
                      GPT3.5 [85]     17.78       31.31      19.56       10.77       21.62       12.11
                     GPT3.5/SC [85]   12.62       17.77      11.49        7.9        8.62        6.95

                    Liu  等人  [14] 进一步改进上述弱对齐框架, 提出了统一对比学习框架                UniCL (unified contrastive learning
                 framework). 与  WASE  框架的空间表示部分相同, 首先通过引导匹配的图文对获得比不匹配图文对更高的分数这
                 样的方式来学习图文的公共表示空间; 不同的是, 在图片事件抽取部分, 研究人员基于查询的策略, 将预先定义好
   273   274   275   276   277   278   279   280   281   282   283