Page 258 - 《软件学报》2025年第9期

P. 258

黄俏娟等: 基于大语言模型的事件常识知识图谱扩展方法 4169

的任务共同微调同一个模型.
对于新三元组的正确性验证任务, 本文结合微调后的 GPT-3.5-Turbo 模型和人工审核的方法进行评估. 在模
型微调阶段, 分别为每种事件关系微调一个模型, 以评估新三元组的正确性. 新三元组生成和验证过程中微调
GPT-3.5-Turbo 模型的参数设置如表 8 所示.

表 8 微调 GPT-3.5-Turbo 模型参数

微调任务事件关系 n_epochs batch_size learning_rate_multiplier
因果 3 2 2
时序 3 3 2
生成三元组
条件 3 3 2
子事件 3 1 2
因果 3 14 2
时序 3 14 2
验证三元组
条件 3 14 2
子事件 2 12 2

针对事件共享机制扩展 ECKG 的任务, 首先按照第 3.3 节介绍的方法计算了 ECKG 事件之间的相似度. 接下
来, 通过设置一定的阈值来筛选出高度相似的事件对. 在选择相似度阈值方面, 为了确保获取高精度和高质量的相
似事件对, 本文通过人工审查不同相似度区间的事件对, 发现相似度在 [0.95, 1) 区间的事件对具有较高的准确率
(如第 4.4.4 节的相似度实验结果所示). 因此, 本文选择 0.95 作为相似度阈值, 即保留相似度的大于或等于 0.95 的
事件对. 尽管相似度低于 0.95 的事件对中可能存在一些被遗漏的相似事件对, 但这些语义相近的事件对所占比例
较小, 影响不大. 如表 9 展示的相似度为 [0.6, 0.95) 区间的语义相近事件对数量, 在表 9 中的每个区间随机抽取
200 个事件对进行考察的结果.

表 9 相似度区间 [0.6, 0.95) 的语义相似事件对数量统计

统计项 [0.6, 0.65) [0.65, 0.7) [0.7, 0.75) [0.75, 0.8) [0.8, 0.85) [0.85, 0.9) [0.9, 0.95)
语义相近的事件对数量 0 0 0 0 0 1 5
语义相近的事件对占比 (%) 0 0 0 0 0 0.5 2.5

获取相似度区间 [0.95, 1) 的所有事件对后, 本文经过人工筛选剔除了语义相似度较低的事件对, 仅保留了高
度相似的事件对, 表 10 展示了 [0.95, 1) 相似度区间的原始事件对及经过人工筛选后的事件对数量. 在人工筛选的
过程中, 本文严格遵循一定的判断标准, 确保筛选出高质量的相似事件对. 具体地, 根据事件本身的含义、事件的
语义角色以及在相同事件关系下所关联事件的相似性来判断每一个事件对是否语义相近. 最终, 在相同的事件关
系中, 将人工筛选保留的相似事件对所关联的事件进行互相共享.

表 10 人工筛选相似事件对的数量统计

相似度区间初始事件对数量人工筛选后事件对数量相似事件对保留比例
[0.95, 1) 20 071 18 848 93.91%

此外, 本文进一步对使用事件共享机制获取的新三元组与原始 ECKG 三元组、ek-prompt 以及微调模型生成
的新三元组进行了相似度去重处理. 具体来说, 使用 WoBERT 预训练模型计算这些三元组的相似度, 并设置阈值
为 0.82. 当相似度大于或等于这个阈值时, 将剔除该三元组. 而相似度小于 0.82 的三元组则为通过事件共享策略
最终得到的新三元组. 该过程的实验在装备有 TITAN RTX 显卡的 Ubuntu Linux 操作系统环境中执行.

4.3 评估指标

4.3.1 自动评估
为了评估获取的新三元组的质量, 本文采用了 BERTScore [61] 方法计算新三元组的得分. BERTScore 是一种利
用 BERT 模型 [62] 比较生成文本与参考文本之间的语义相似度的方法, 提供了精确度 ( P BERT )、召回率 ( R BERT )、F1

253 254 255 256 257 258 259 260 261 262 263