Page 242 - 《软件学报》2025年第9期
P. 242
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(9):4153−4186 [doi: 10.13328/j.cnki.jos.007262] [CSTR: 32375.14.jos.007262] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
基于大语言模型的事件常识知识图谱扩展方法
黄俏娟 1,2 , 曹存根 1 , 王 亚 3 , 王 石 1
1
(中国科学院 计算技术研究所 智能信息处理重点实验室, 北京 100190)
2
(中国科学院大学, 北京 100049)
3
(南阳师范学院 人工智能与软件工程学院, 河南 南阳 473061)
通信作者: 曹存根, E-mail:cgcao@ict.ac.cn
摘 要: 常识知识通常不在自然语言中明确表述, 而是隐含在人类的认知中, 为机器提供常识知识一直是人工智能
领域的长期目标之一. 前期, 课题组成员手工构建了一个高精度的以事件为中心的中文种子常识知识图谱
(ECKG), 包含了 26 606 个常识事件三元组, 覆盖了因果、时序、条件等多种常见的事件关系. 尽管种子 ECKG 具
有一定的价值, 但规模较小, 在实际应用中发挥的作用有限, 且大规模的事件常识知识图谱在现有研究中较为稀缺.
为了应对这些挑战, 采用 GPT 系列的大语言模型来扩展种子 ECKG 中的因果、时序、条件和子事件这 4 种事件
关系. 扩展方法包括 3 个主要的步骤: 首先, 将种子 ECKG 中的事件结合 4 种关系定义设计了特定的事件知识提
示 (ek-prompt), 并使用 GPT-4-Turbo 模型生成相应的事件三元组. 其次, 将种子 ECKG 的三元组与通过 ek-prompt
获取的正确三元组组合, 以构建特定的数据集, 并将 GPT-3.5-Turbo 模型在数据集上进行微调, 以生成更多具体的
事件三元组和验证新三元组准确性. 最后, 通过分析种子 ECKG 事件的相似性, 并引入事件共享机制, 将相同关系
下的相似事件关联的事件互相共享, 以保持相似事件的三元组一致性. 经过实验评估, 新获取的三元组具有高质量,
尤其是时序关系的三元组准确率最高, 达到了 98.2%. 所提扩展方法最终为种子 ECKG 增补了 2 433 012 个常识事
件三元组, 显著扩大了 ECKG 的规模, 可以为人工智能领域的许多应用提供了更为丰富的常识知识资源.
关键词: 事件常识知识图谱; 大语言模型; 微调技术; 事件三元组; 事件共享机制
中图法分类号: TP18
中文引用格式: 黄俏娟, 曹存根, 王亚, 王石. 基于大语言模型的事件常识知识图谱扩展方法. 软件学报, 2025, 36(9): 4153–4186. http://
www.jos.org.cn/1000-9825/7262.htm
英文引用格式: Huang QJ, Cao CG, Wang Y, Wang S. Method for Expanding Event Commonsense Knowledge Graph Based on Large
Language Models. Ruan Jian Xue Bao/Journal of Software, 2025, 36(9): 4153–4186 (in Chinese). http://www.jos.org.cn/1000-9825/
7262.htm
Method for Expanding Event Commonsense Knowledge Graph Based on Large Language Models
3
1,2
1
HUANG Qiao-Juan , CAO Cun-Gen , WANG Ya , WANG Shi 1
1
(Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,
China)
2
(University of Chinese Academy of Sciences, Beijing 100049, China)
3
(School of Artificial Intelligence and Software Engineering, Nanyang Normal University, Nanyang 473061, China)
Abstract: Commonsense knowledge is usually not explicitly expressed in natural languages but is implicitly understood in human
cognition. Providing machines with commonsense knowledge has been a longstanding aim in artificial intelligence. Initially, this study
manually constructs a high-precision, event-centric commonsense knowledge graph (ECKG) for seed events in Chinese. It contains 26 606
* 基金项目: 国家重点研发计划 (2022YFC3302300); 国家科技重大专项 (7090201050307); 国家 242 信息安全计划 (2023A105)
收稿时间: 2024-04-19; 修改时间: 2024-06-10; 采用时间: 2024-07-19; jos 在线出版时间: 2024-12-31
CNKI 网络首发时间: 2025-01-02

