Page 246 - 《软件学报》2025年第9期
P. 246

黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法                                                     4157


                 展种子   ECKG  时, 我们认为每一个事件都应该考虑这           3  种关系. 然而, 并非所有的事件都包含子事件. 当一个事件
                 有子事件时, 该事件应该是包含一系列相关的活动或步骤的复杂过程事件. 例如, 事件“准备晚餐”可能涉及“购买
                 食材、清洗食材、煮食材”等多个步骤.
                    为了有效地扩展种子        ECKG, 则需要预先识别哪些事件含有子事件. 本文根据常识的事件语义类别                       [44,45] 和事
                 件本身的含义总结       11  种不包含子事件关系的事件特征, 如表           1  所示, 下划线标识的是关键特征的字词. 基于表            1
                 的特征, 本文标注一定的数据集, 并采用了支持向量机                [46] 对  ECKG  中的事件进行分类, 进而判断出事件是否具有
                 子事件关系. 对于筛选出包含有子事件关系的事件, 再使用第                  3  节的方法扩展子事件关系的三元组.

                                               表 1 不含子事件关系的事件特征

                               描述                                          实例
                    包含起止含义或表示最终结果的事件                 开始工作、吃完食物、课程结束、完成任务、找到礼物、获得证书
                        “太+形容词”修饰的事件                    吃太多苹果、喝酒太多、吃得太快、进展太慢、喝水太少
                         描述主体现状的事件                    家庭贫穷、已婚、婚姻牢固、婚姻美满、身体健康、身体不健康
                            愿意类的事件                          想吃香蕉、不想站立、愿意帮忙、不愿意锻炼
                          态度语义类的事件                      上课认真、粗心、与他人亲密、司机热情、他国对祖国友好
                    主体自身在时间上进展的消散类事件                         春天来临、怒气消失、社会进步、他人退步
                          特征语义类的事件                      自己聪明、她漂亮、相貌帅气、厨艺好、名声不好、售价高
                          情感语义类的事件                  朋友悲伤、厌恶他人、忌妒朋友、讨厌食物、喜欢锻炼身体、他人满意
                            像是类的事件                             是记者、不是观众、像老师、不像明星
                          领属语义类的事件                     有电话、拥有钱财、他人患有重病、没有房子、某地回归国家
                          感知语义类的事件                  看到电影广告、理解父母、饥饿、感到冷、发现真相、知道重要消息

                 3   LLM  扩展  ECKG

                    本节将详细介绍使用        GPT  系列的  LLM  获取因果、时序、条件和子事件关系的事件三元组以扩展                    ECKG  的
                 方法. 首先, 在第   3.1  节中, 本文将探讨如何设计特定的        ek-prompt, 并基于  GPT-4-Turbo  模型扩展  ECKG  中的  4  种
                 事件关系. 接着, 第    3.2  节描述了构建特定结构的数据集, 经过微调           GPT-3.5-Turbo  模型以生成和验证新三元组. 最
                 后, 在第  3.3  节中, 引入一个事件共享机制. 通过计算         ECKG  中事件间的语义相似度, 将高度相似的事件在相同关
                 系下关联的事件进行互相共享. 后文图            1  展示了扩展   ECKG  的整体框架, 其中     ft-gen  表示用于生成新三元组的微
                 调模型, ft-ver 是用于验证新三元组正确性的微调模型.

                 3.1   设计  ek-prompt
                    由于  LLM  依赖于自然语言的输入才能展示更好的性能, 因此本文设计了                     ek-prompt. 通过  ek-prompt 精确控
                 制的提示来指导      LLM  学习  ECKG  的相关知识, 以生成特定类型的事件. 为          ECKG  中相同关系下的每个事件设置
                 两种特定的    ek-prompt, 分别用于生成事件的头三元组和尾三元组. 例如, 对于事件                 E, 在相同关系   R  中, 一种  ek-
                 prompt 为了生成头三元组<?, R, E>, 另一种则是为了生成尾三元组<E, R, ?>.
                    GPT-4-Turbo 模型是  OpenAI 发布的先进大规模语言模型, 具有更新的数据集, 并且支持               128k 的上下文窗口    [47] .
                 因此, 本文基于    ek-prompt 通过  API 调用  GPT-4-Turbo  模型来扩展  ECKG  中的因果、时序、条件和子事件关系的
                 三元组. 为了确保生成高质量的三元组, 经过多轮测试和优化, 最终确定了效果最佳的                          ek-prompt. 每种事件关系
                 的  ek-prompt 如表  2  所示, 每个  ek-prompt 主要包括事件关系的定义描述、举例说明          (可选)、提出问题和输出要
                 求这  4  个部分. 以下是对每一部分的详细介绍.
                    (1) 事件关系的定义描述
                    在  ek-prompt 的第  1  部分, 通过对特定事件关系的明确定义, 为         GPT-4-Turbo  模型提供了清晰的背景信息框
                 架, 以引导模型理解和生成相关的事件. 例如, 对于因果关系, 本文定义为“一个事件的发生可能导致另一个事件的
                 产生”. 这种清晰的定义有助于模型学习事件生成的基础逻辑, 确保生成的三元组与预期的事件关系类型一致.
   241   242   243   244   245   246   247   248   249   250   251