Page 279 - 《软件学报》2025年第4期
P. 279

王永胜 等: 多模态信息抽取研究综述                                                              1685


                 的动作动词分别与图片和文本计算相似度, 并基于权重加权平均融合得到最终的相似度分数, 依据得到的相似度
                 分数匹配得到图片的事件类型和论元; 然后利用贪心算法不断迭代找到最佳匹配的图文事件, 最后逐步合并匹配
                 的图文事件得到所有的多模态事件.
                    与上述方法不同, Du      等人  [70] 利用文本-图片  (text-to-image) 和图片-文本  (image-to-text) 这种双向数据增强的
                 方式提出了一个跨模态增强多模态事件学习框架                 CAMEL (cross-modality augmented multimedia event learning). 该
                 框架首先利用先进的图像生成工具和文本生成工具分别在纯文本数据集和纯图片数据集上生成对应的模态信息,
                 然后合并这两个数据集为一个有标记的多模态数据集. 通过该方式可缓解对齐的大规模图文事件标注数据集短缺
                 的问题, 但是在利用生成工具生成对应模态的过程中难免会引入噪声, 因此, 进一步设计了一种增量训练策略, 该
                 策略可缓解人工生成的多模态数据中存在的伪影、幻觉和分布变化的问题, 以此来缓解此类噪声引起模型性能下
                                        2 2
                 降的问题. 该方法在数据集        M E 上取得了较好的性能表现.
                    上述多模态事件抽取方法在考虑模态间的融合时, 只是考虑了实体级别的对齐, 并没有考虑事件结构级别的
                 对齐. 而同样的实体由于可以对应不同的论元角色分类, 可能代表两个不同的事件. 因此, Li 等人                          [84] 提出考虑事件
                                                          2
                                                        2
                 结构的自监督对比学习框架          CLIP-Event, 通过在  M E 数据集上的测试结果显示: 与先进模型            UniCL  相比, CLIP-
                 任务.
                 Event 在触发词抽取任务上的召回率提高了            5.1%.
                    随着大模型的应用越来越广泛, Moghimifar 等人          [85] 将  ChatGPT  引入到多模态事件抽取任务上并分别提出了
                 GPT3.5  模型和  GPT3.5/SC (scene description) 模型. 其中, GPT3.5  模型是直接输入文本, 然后调用  GPT-3.5-Turbo
                 得到; GPT3.5/SC  模型首先使用视觉生成文本工具将图片转为文本, 然后调用                   GPT-3.5-Turbo  得到. 由表  13  可以
                 看出: GPT3.5  模型在各项评价指标上的性能均要优于             GPT3.5/SC. 鉴于  GPT3.5  是一个单流模型, 图像生成文本的
                 过程中可能会丢失大量特征, 下一步可以考虑在事件抽取任务中引入双流模型                         (如  GPT-4).
                    此外, 由于视频中包含丰富的动作信息以及更多事件论元信息, 这些动作或论元信息在单帧的图片中可能无
                 法体现. 因此, Chen  等人  [86] 引入了视觉多媒体事件抽取任务         (video multimedia event extraction, VMEE). 在文本模
                 态上融合视频模态的难点在于: 需要确定视频中事件的时间边界. 相较于图片模态, 视频态的标注工作更复杂. 因
                 此, 提出了一个自监督的训练框架, 首先找到句子-视频片段对中的事件同指, 然后提出一个多模态                             Transformer 框
                 架, 利用特定于模态的解码器联合抽取文本模态和视频模态的事件和论元.

                 6   未来与展望

                 6.1   研究趋势
                    总体来看, 现有的多模态信息抽取研究工作主要集中在多模态命名实体识别和多模态实体关系抽取两个子任
                 务上, 多模态事件抽取任务还处于起步发展阶段.
                    ● 多模态命名实体识别任务的研究趋势. 现阶段, 主要的研究工作集中在通过图模型、注意力机制、对比学
                 习和基于上下文学习的推理等方法使得图文两种模态得到充分交互. 融合策略上也从尽可能多的融合图片特征向
                 恰当的融合图片特征转移, 如通过训练高效的数据分类器以及增加基于纯文本的辅助模块等方法来缓解由不匹配
                 的图文给模型性能带来的负影响. 尽管近年来通过各种先进的深度学习方法在该任务上取得了较大成功, 但大部
                 分模型均是在     Twitter2015  和  Twitter2017  两个社交数据集上测试其性能, 缺乏领域性多模态数据集: 如金融、法
                 律 以及自然灾害等领域数据对模型进行评价. 总体来看, 多模态命名实体识别仍然是一个重要且充满挑战的研究


                    ● 多模态实体关系抽取任务的研究趋势. 在多模态实体关系抽取任务的发展初期, 研究者主要通过融合图片
                 信息对短文本的内容进行补充, 通过图片中的背景知识、图片中的实体以及图片中的实体之间的关系来增强短文
                 本的语义表示, 进而提高实体关系抽取模型的性能. 这个阶段主要关注图片特征提取以及图文融合策略等方面. 现
                 阶段, 研究者们更加关注联合抽取命名实体和实体之间的关系. 通过先进的联合抽取技术, 可较大程度上缓解管道
                 方法存在的各种缺点. 但是对于开放域以及特定领域的实体关系, 目前还缺乏相应探究.
                    ● 多模态事件抽取的研究趋势. 类似于上述             MNER  和  MERE  任务, 早期的研究工作专注于通过融合图片信息
   274   275   276   277   278   279   280   281   282   283   284