Page 259 - 《软件学报》2025年第4期
P. 259
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(4):1665−1691 [doi: 10.13328/j.cnki.jos.007245] [CSTR: 32375.14.jos.007245] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
多模态信息抽取研究综述
王永胜, 李培峰, 王中卿, 朱巧明
(苏州大学 计算机科学与技术学院, 江苏 苏州 215006)
通信作者: 李培峰, E-mail: pfli@suda.edu.cn
摘 要: 多模态信息抽取任务是指从非结构化或半结构化的多模态数据 (包含文本和图像等) 中提取结构化知识.
其研究内容主要包含多模态命名实体识别、多模态实体关系抽取和多模态事件抽取. 首先对多模态信息抽取任务
进行分析, 然后对多模态命名实体识别、多模态实体关系抽取和多模态事件抽取这 3 个子任务的共同部分, 即多
模态表示和融合模块进行归纳和总结. 随后梳理上述 3 个子任务的常用数据集和主流研究方法. 最后总结多模态
信息抽取的研究趋势并分析该研究存在的问题和挑战, 为后续相关研究提供参考.
关键词: 多模态信息抽取; 多模态命名实体识别; 多模态实体关系抽取
中图法分类号: TP18
中文引用格式: 王永胜, 李培峰, 王中卿, 朱巧明. 多模态信息抽取研究综述. 软件学报, 2025, 36(4): 1665–1691. http://www.jos.org.
cn/1000-9825/7245.htm
英文引用格式: Wang YS, Li PF, Wang ZQ, Zhu QM. Survey on Multimodal Information Extraction Research. Ruan Jian Xue
Bao/Journal of Software, 2025, 36(4): 1665–1691 (in Chinese). http://www.jos.org.cn/1000-9825/7245.htm
Survey on Multimodal Information Extraction Research
WANG Yong-Sheng, LI Pei-Feng, WANG Zhong-Qing, ZHU Qiao-Ming
(School of Computer Science and Technology, Soochow University, Suzhou 215006, China)
Abstract: Multimodal information extraction is a task to extract structured knowledge from unstructured or semi-structured multimodal
data (such as text and images). It includes multimodal named entity recognition, multimodal relation extraction, and multimodal event
extraction. This study analyzes multimodal information extraction tasks and summarizes the common part of the above three subtasks, i.e.,
a multimodal representation and fusion module. Moreover, it sorts out the commonly used datasets and mainstream research methods of
the above three subtasks. Finally, it outlines research trends in multimodal information extraction and analyzes the existing problems and
challenges in this field to provide a reference for future research.
Key words: multimodal information extraction (MIE); multimodal named entity recognition (MNER); multimodal entity relation extraction
(MERE)
我们生活在一个多模态信息相互交融的环境中, 每天看到的文字、图片以及听到的声音等都属于一种模态.
尤其是随着社交媒体 (如 X 和微博等) 的快速发展, 近年来社交媒体的内容往往是以文本、图片和音频等多模态
的形式联合表示. 信息抽取 (information extraction) 旨在从自然语言文本中抽取出特定实体 (entity)、关系
(relation) 和事件 (event) 等信息, 帮助人们将海量的内容自动分类、提取和重构. 其中, 社交媒体上的文本呈现出
简短、包含特殊字符、表达偏口语化和未收录的网络流行词语爆发等特点. 针对这样具有高噪音的文本语料, 传
统的基于文本信息抽取的模型面临巨大的挑战 (如未能正确识别话题中所有实体、实体关系和事件触发词等). 一
种方法是在模型的输入端增加与文本相关的其他模态信息, 从而增强文本的语义表示, 然后利用基于多模态的方
法来提高信息抽取的性能. 这种从非结构化或半结构化的多模态数据 (包含文本和图像等) 中提取结构化知识的
* 基金项目: 国家自然科学基金 (62276177, 61836007); 江苏高校优势学科建设工程项目
收稿时间: 2023-09-13; 修改时间: 2024-02-25, 2024-04-16; 采用时间: 2024-06-26; jos 在线出版时间: 2024-12-09
CNKI 网络首发时间: 2024-12-09