Page 280 - 《软件学报》2025年第4期
P. 280

1686                                                       软件学报  2025  年第  36  卷第  4  期


                 来缓解句子中的多义词问题, 进而提高文本事件抽取的性能. 考虑到各模态数据之间的互补性, 图片模态不仅可以
                 增强文本态的语义表示, 还可以通过图片事件抽取来补充文本中可能缺失的部分事件论元和事件类型. 随后, 研究
                 重心逐步从图片辅助文本的事件抽取转向多模态事件抽取. 多模态事件抽取同时涉及文本事件抽取、图片事件抽
                 取以及图文事件同指等工作, 该任务较为复杂, 因此, 多模态事件抽取仍然存在较大的探索空间.

                 6.2   存在的挑战与展望
                    通过上文中对多模态信息抽取研究趋势的分析, 本文认为多模态信息抽取的研究工作在大规模多模态标注数
                 据集、多模态数据的特征表示及融合策略、多模态信息抽取的子任务间协同以及融合外部知识等问题上仍然存
                 在挑战. 具体来讲, 在构建面向多模态信息抽取任务的大规模多模态标注数据集、面向多模态信息抽取任务的细
                 粒度图文融合策略、面向多模态信息抽取各子任务之间的推理知识和面向开放域的多模态信息抽取任务这                                      4  个
                 方面存在如下的挑战.
                    ● 构建面向多模态信息抽取任务的大规模多模态标注数据集. 大规模的多模态标注数据集是多模态研究中不
                 同任务面临的共性问题, 原因是多模态数据集普遍存在标注费用高、耗时长等特点. 相比于单模态数据集, 标注多
                 模态数据时需要同时结合两种模态信息并将其对齐, 然后在理解整体含义的基础上对两种模态进行标注, 工作量
                 域出现, 但近期在其他任务上已出现类似的设计思路.
                 大且复杂度高. 因此, 目前的多模态信息抽取研究中普遍存在数据集规模小                       (MNER  任务中常用的     Twitter2015  有
                                                                               2
                                                                                2
                 8 257  个句子, Twitter2017  有  7 181  个句子)、标注数据少  (MEE  任务中常用的  M E 共标注  1 297  个句子和  391  张
                 图片) 等问题. 虽然一些针对小样本的先进模型被提出                [11,12] , 但这只是在小样本情况下提升模型性能的一种方式,
                 数据集的规模大小将会影响对先进模型的全面评估, 这也是在其他多模态任务上遇到的模型性能超过人工标注性
                 能的一种可能原因. 因此, 构建大规模的多模态标注数据集刻不容缓. 虽然通过表                        5、表  6、表  8  和表  13  发现: 直
                 接调用   ChatGPT  在信息抽取任务上表现较差, 但是鉴于           ChatGPT  具有强大的常识推理能力, 而且        GPT-4  可提供
                 双流输入, 调用    GPT-4  对多模态数据集进行初步标注, 然后结合人工检查的方式将为构建大规模的多模态标注数
                 据集提供更大可能.
                    ● 面向多模态信息抽取任务的细粒度图文融合策略. 由于多模态知识最早是被应用于情感分析以及视觉问答
                 等任务上, 并取得了出色的性能表现           [1,2] . 目前, 这些领域的多数图文融合策略均在多模态信息抽取任务中被借鉴.
                 虽然通过上述融合策略在多模态事件抽取任务上取得了较好的成绩                       [13,17] , 但它们的融合策略并没有考虑事件抽取
                 任务具有事件同指、事件结构复杂等特点, 这将导致融合图片信息后事件抽取性能提升不及预期, 其原因可能是
                 在构建多模态公共语义空间时, 只考虑了模态间实体之间的对齐, 而没有考虑实体之间的关系、实体位置以及常
                 识推理等信息, 而这些细粒度信息往往决定事件的论元信息. 因此, 针对多模态事件抽取等具有复杂结构的多模态
                 任务, 我们可能需要增加细粒度的融合策略, 如采用对比学习方法构建公共空间时, 设计负例的同时需要考虑除实
                 体之外的其他方面不相关的多种情况.
                    ● 面向多模态信息抽取各子任务之间的推理知识. 在多模态数据集中, 针对简单的动作场景, 图片与文本存在
                 直观的对应关系, 可简单的通过计算两种模态的相似度判断它们是否相关, 进而对两种模态进行对齐和融合操作;
                 而对于复杂的应用场景, 如自然灾害的场景中, 文本可能描述的是地震、暴风等事件, 而对应的图片则呈现的是废
                 墟、捐赠或者被损坏的房屋等画面, 此时, 需要引入外部知识来推理文本和对应图片的相关性. 目前, 虽然有学者
                 提出基于大模型的方法尝试解决上述问题               [57] , 但还不确定这些大模型否具备信息抽取各种子任务之间的推理能
                 力, 如: 句子中的某个实体有很大可能是一个事件的论元; 两个实体是同学关系, 则有很大可能发生毕业、上课等
                 事件等, 针对这一问题, 可考虑多任务架构和强化学习组成一个新型的信息抽取模型, 比如在考虑事件抽取任务
                 时, 利用其他非事件抽取任务的输出作为奖励机制来促进事件抽取模型的性能优化. 这类模型很少在信息抽取领

                    ● 面向开放域的多模态信息抽取任务. 针对多模态信息抽取任务, 主流的模型基本都是在限定域类别做分类
                 任务  [13,17] , 虽然在部分子任务上已分出     Other 类别  [21,25] , 但是这只是将可能存在的其他类型粗糙的划分为           Other
                 类, 即使通过某种方法提高了模型性能, 仍然需要人工干预来解决                    Other 类里的模糊问题. 针对这一问题, 利用多
                 模态信息处理技术实现实体、关系以及事件等体系的自动认知, 将是一项极富挑战且具趣味性的工作. 特别地, 利
   275   276   277   278   279   280   281   282   283   284   285