Page 257 - 《软件学报》2025年第9期
P. 257
4168 软件学报 2025 年第 36 卷第 9 期
4.1 数据集
本文的数据集主要包括 ek-prompt 所使用的原始 ECKG 的事件节点, 以及微调 GPT-3.5-Turbo 模型所需的事
件三元组.
4.1.1 ECKG 事件三元组
课题组成员从各类资源中手工收集了常识性的事件三元组, 并经过精细的筛选和修正, 得到了高精度的事件
三元组, 进而构建成了 ECKG, 表 6 展示 ECKG 中各种事件关系的三元组数量分布情况. 经去重处理后, ECKG 共
包含了 8 466 个事件, 这些事件主要提供给 ek-prompt 扩展因果、时序和条件关系. 此外, 对于 ek-prompt 扩展子事
件关系三元组所需的数据, 本文根据第 2 节的事件语义的分类, 筛选出具有子事件关系的事件为 4 484 个.
表 6 ECKG 事件三元组
事件关系 三元组数量
因果 4 810
时序 7 821
条件 7 316
子事件 1 598
目标 3 343
同现 186
推出 1 532
总计 26 606
4.1.2 微调模型数据集
在微调 GPT-3.5-Turbo 模型的过程中, 本文采用的数据集是由 ECKG 原始事件的三元组与通过 ek-prompt 生
成并且经过人工评估的新三元组共同组成. 微调模型主要用于生成和验证 4 种事件关系的新三元组, 对于生成任
务, 需要分别为生成 ECKG 事件的头三元组和尾三元组构建数据集, 而验证任务只需要一个数据集. 每种事件关
系的数据集至少包含 1 万条数据, 并按照 7:2:1 划分为训练集、验证集和测试集, 表 7 详细展示了不同任务中各种
事件关系的数据集统计情况.
表 7 微调模型数据集统计
微调任务 事件关系 训练集 验证集 测试集 总计
因果 8 397 2 399 1 200 11 996
时序 7 070 2 020 1 010 10 100
生成头三元组
条件 7 035 2 010 1 005 10 050
子事件 7 655 2 187 1 094 10 936
因果 7 150 2 043 1 021 10 214
时序 7 084 2 024 1 012 10 120
生成尾三元组
条件 7 014 2 004 1 002 10 020
子事件 7 632 2 181 1 090 10 903
因果 7 056 2 016 1 008 10 080
时序 7 119 2 034 1 017 10 170
验证新三元组
条件 7 030 2 009 1 004 10 043
子事件 9 243 2 641 1 321 13 205
4.2 实验设置
在扩展 ECKG 三元组的任务中, 本文实现了基于 GPT-4-Turbo 模型设计的 ek-prompt、微调 GPT-3.5-Turbo
模型, 以及使用事件共享机制 3 个扩展策略. 在使用 GPT-4-Turbo 模型时, 本文为 4 种事件关系分别设计高质量
的 ek-prompt 模板. 对于微调模型生成事件三元组任务, 为了使 GPT-3.5-Turbo 模型更好地学习到每个 ECKG 事件
的头三元组和尾三元组的特征, 以及它们之间的紧密联系, 本文对同一种事件关系下的生成头三元组和尾三元组

