Page 260 - 《软件学报》2025年第4期
P. 260
1666 软件学报 2025 年第 36 卷第 4 期
任务被称为多模态信息抽取任务. 目前, 随着多模态数据集的逐步开放和 GPU (graphics processing unit) 算力的大
幅提升, 多模态信息抽取已经成为自然语言处理 (natural language processing, NLP) 领域中一个新兴的重要研究
方向.
基于上述背景, 本文首先以多模态信息抽取 (multimodal information extraction, MIE)、多模态命名实体识别
(multimodal named entity recognition, MNER)、多模态实体关系抽取 (multimodal entity relation extraction, MERE)
和多模态事件抽取 (multimodal event extraction, MEE) 为主题检索包括中国计算机学会认定的自然语言处理、人
工智能和多媒体领域的 A、B、C 类国内外会议论文以及国内外重要期刊论文和高引用率的论文, 然后将检索出
的多模态信息抽取相关论文分别按年份和子任务排列, 排列分布如图 1 所示. 由图 1 可以看出: 多模态信息抽取任
务发展的时间较短, 多数相关任务于 2020 年前后被提出, 随后研究热度呈现出逐年快速上升的趋势; 多模态信息
抽取任务主要的研究工作集中在多模态命名实体识别和多模态实体关系抽取任务上, 其他相关任务 (如多模态事
件抽取等) 还处于起步发展阶段. 目前, 多模态研究的其他领域 (如多模态情感分析 [1] 和视觉问答 [2] 等) 已有多篇综
述, 而多模态信息抽取还缺乏相应的综述工作. 因此, 本文尝试从 NLP 的角度对多模态信息抽取进行归纳总结并
分析其存在的挑战, 为后续研究提供参考. 鉴于现有工作主要集中在图片和文本这两种模态上, 本文讨论的多模态
以及联合抽取方法
主要涉及图片和文本.
20 40
18 35
16 30
14
12
数量 10 8 数量 25
20
15
6 10
4
2 5
0 0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 MNER MEE MERE
୍ٺ 子任务
(a) 研究热度 (b) 子任务分布
图 1 多模态信息抽取的研究热度及其子任务分布
1 多模态信息抽取任务
多模态信息抽取任务是指从非结构化或半结构化的多模态数据 (包含文本和图像等) 中提取结构化知识. 该
任务是知识图谱和自动问答等任务的上游任务, 应用广泛. 由图 1 可以看出, 最早在 2007 年就有学者提出多模态
信息抽取任务, 但是受制于有限的计算资源以及低效的特征提取等条件, 该方向没有得到足够的关注. 直到
2017 年, 该方向的研究热度逐步显现, 首先是 Zhang 等人 [3] 提出通过图片信息来提升文本事件抽取的性能以及
Lu 等人 [4] 提出通过图片信息来提高命名实体识别的性能. 此时, 得益于机器学习以及深度学习等技术的快速发展,
研究者们有更多的工具来表示文本特征和图片特征. 但是依然面临模态间的对齐和融合问题, 早期的对齐只是简
单地通过余弦相似度来衡量 [5] , 融合方式也只是简单地将两种特征表示直接拼接 [6,7] . 随着注意力机制以及图模型
等技术的兴起, 各种高效的融合策略 [8,9] [10] 相继被提出. 模型性能得到进一步提高. 随后, 研究者
们注意到现有的多模态数据集存在规模小、标注成本高等特点, 各种基于小样本的方法 [11,12] 、对比学习的方法 [13,14]
被提出. 此时, 基于现有规模的多模态数据集、先进的特征表示方法以及高效的融合策略, 多模态信息抽取任务的
研究取得了巨大的进展 [15−17] .
从研究内容来看, 多模态信息抽取任务一般包含多模态命名实体识别、多模态实体关系抽取和多模态事件抽
取等子任务. 本节重点围绕上述 3 个子任务展开讨论, 包括各个子任务的定义以及模型评价指标的定义.
1.1 多模态命名实体识别
命名实体识别是指识别出文本中具有特定意义的实体, 并将这些实体按预先定义的实体类型 (如人名、地名、