Page 246 - 《软件学报》2025年第9期
P. 246
黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法 4157
展种子 ECKG 时, 我们认为每一个事件都应该考虑这 3 种关系. 然而, 并非所有的事件都包含子事件. 当一个事件
有子事件时, 该事件应该是包含一系列相关的活动或步骤的复杂过程事件. 例如, 事件“准备晚餐”可能涉及“购买
食材、清洗食材、煮食材”等多个步骤.
为了有效地扩展种子 ECKG, 则需要预先识别哪些事件含有子事件. 本文根据常识的事件语义类别 [44,45] 和事
件本身的含义总结 11 种不包含子事件关系的事件特征, 如表 1 所示, 下划线标识的是关键特征的字词. 基于表 1
的特征, 本文标注一定的数据集, 并采用了支持向量机 [46] 对 ECKG 中的事件进行分类, 进而判断出事件是否具有
子事件关系. 对于筛选出包含有子事件关系的事件, 再使用第 3 节的方法扩展子事件关系的三元组.
表 1 不含子事件关系的事件特征
描述 实例
包含起止含义或表示最终结果的事件 开始工作、吃完食物、课程结束、完成任务、找到礼物、获得证书
“太+形容词”修饰的事件 吃太多苹果、喝酒太多、吃得太快、进展太慢、喝水太少
描述主体现状的事件 家庭贫穷、已婚、婚姻牢固、婚姻美满、身体健康、身体不健康
愿意类的事件 想吃香蕉、不想站立、愿意帮忙、不愿意锻炼
态度语义类的事件 上课认真、粗心、与他人亲密、司机热情、他国对祖国友好
主体自身在时间上进展的消散类事件 春天来临、怒气消失、社会进步、他人退步
特征语义类的事件 自己聪明、她漂亮、相貌帅气、厨艺好、名声不好、售价高
情感语义类的事件 朋友悲伤、厌恶他人、忌妒朋友、讨厌食物、喜欢锻炼身体、他人满意
像是类的事件 是记者、不是观众、像老师、不像明星
领属语义类的事件 有电话、拥有钱财、他人患有重病、没有房子、某地回归国家
感知语义类的事件 看到电影广告、理解父母、饥饿、感到冷、发现真相、知道重要消息
3 LLM 扩展 ECKG
本节将详细介绍使用 GPT 系列的 LLM 获取因果、时序、条件和子事件关系的事件三元组以扩展 ECKG 的
方法. 首先, 在第 3.1 节中, 本文将探讨如何设计特定的 ek-prompt, 并基于 GPT-4-Turbo 模型扩展 ECKG 中的 4 种
事件关系. 接着, 第 3.2 节描述了构建特定结构的数据集, 经过微调 GPT-3.5-Turbo 模型以生成和验证新三元组. 最
后, 在第 3.3 节中, 引入一个事件共享机制. 通过计算 ECKG 中事件间的语义相似度, 将高度相似的事件在相同关
系下关联的事件进行互相共享. 后文图 1 展示了扩展 ECKG 的整体框架, 其中 ft-gen 表示用于生成新三元组的微
调模型, ft-ver 是用于验证新三元组正确性的微调模型.
3.1 设计 ek-prompt
由于 LLM 依赖于自然语言的输入才能展示更好的性能, 因此本文设计了 ek-prompt. 通过 ek-prompt 精确控
制的提示来指导 LLM 学习 ECKG 的相关知识, 以生成特定类型的事件. 为 ECKG 中相同关系下的每个事件设置
两种特定的 ek-prompt, 分别用于生成事件的头三元组和尾三元组. 例如, 对于事件 E, 在相同关系 R 中, 一种 ek-
prompt 为了生成头三元组<?, R, E>, 另一种则是为了生成尾三元组<E, R, ?>.
GPT-4-Turbo 模型是 OpenAI 发布的先进大规模语言模型, 具有更新的数据集, 并且支持 128k 的上下文窗口 [47] .
因此, 本文基于 ek-prompt 通过 API 调用 GPT-4-Turbo 模型来扩展 ECKG 中的因果、时序、条件和子事件关系的
三元组. 为了确保生成高质量的三元组, 经过多轮测试和优化, 最终确定了效果最佳的 ek-prompt. 每种事件关系
的 ek-prompt 如表 2 所示, 每个 ek-prompt 主要包括事件关系的定义描述、举例说明 (可选)、提出问题和输出要
求这 4 个部分. 以下是对每一部分的详细介绍.
(1) 事件关系的定义描述
在 ek-prompt 的第 1 部分, 通过对特定事件关系的明确定义, 为 GPT-4-Turbo 模型提供了清晰的背景信息框
架, 以引导模型理解和生成相关的事件. 例如, 对于因果关系, 本文定义为“一个事件的发生可能导致另一个事件的
产生”. 这种清晰的定义有助于模型学习事件生成的基础逻辑, 确保生成的三元组与预期的事件关系类型一致.

