Page 266 - 《软件学报》2025年第9期

P. 266

黄俏娟等: 基于大语言模型的事件常识知识图谱扩展方法 4177

面的评估. 由于数据规模庞大, 仅依靠人工审核的方法显然不现实. 因此, 本文采用了微调后的 GPT-3.5-Turbo
模型来验证三元组的正确性.
在验证任务中, 本文使用了准确率、精确率、召回率和 F1 值来评估微调模型的性能. 此外, 还与未经过微调
的 GPT-3.5-Turbo、GPT-4-Turbo、讯飞星火和文心一言模型进行了对比实验. 图 12 展示了实验结果, 其中 ft-ver
表示用于验证任务的微调模型. 通过对图 12 中实验数据的分析, 得到以下结论.

准确率精确率召回率 F1 值准确率精确率召回率 F1 值
91.77 97.64
92.87 97.74
ft-ver ft-ver
96.04 99.90
94.43 98.81
74.70 85.25
83.08 97.73
GPT-3.5-Turbo GPT-3.5-Turbo
81.83 86.92
82.45 92.01
75.20 68.24
82.22 98.69
GPT-4-Turbo GPT-4-Turbo
84.02 68.41
83.11 80.81
74.21 91.54
讯飞星火 75.21 讯飞星火 98.09
96.17 93.16
84.41 95.56
78.17 90.27
文心一言 80.62 文心一言 99.01
92.08 90.95
85.97 94.81
55 60 65 70 75 80 85 90 95 100 105 110 55 60 65 70 75 80 85 90 95 100 105 110
百分比 (%) 百分比 (%)
(a) 因果关系 (b) 时序关系
准确率精确率召回率 F1 值准确率精确率召回率 F1 值
96.12 95.99
96.77 95.47
ft-ver ft-ver
99.28 99.91
98.01 97.64
66.57 81.00
97.02 82.89
GPT-3.5-Turbo GPT-3.5-Turbo
67.32 97.17
79.49 89.47
60 .00 78.05
98.13 85.68
GPT-4-Turbo GPT-4-Turbo
59.57 88.33
74.13 86.98
78.41 80.09
讯飞星火 98.08 讯飞星火 83.20
79.11 95.26
87.58 88.82
79.90 81.15
文心一言 97.99 文心一言 83.44
80.77 96.44
88.55 89.47
55 60 65 70 75 80 85 90 95 100 105 110 55 60 65 70 75 80 85 90 95 100 105 110
百分比 (%) 百分比 (%)
(c) 条件关系 (d) 子事件关系
图 12 不同 LLM 验证各事件关系三元组的性能对比

(1) 在所有测试的 LLM 中, ft-ver 模型在验证 4 种不同事件关系的任务中表现出较好且稳定的性能. 特别是在
时序、条件和子事件的召回率高达 99% 以上. 最低的准确率体现在因果关系中, 但仍然保持在 91% 以上, 也是相
当不错的表现.
(2) GPT-3.5-Turbo 模型在时序和条件关系的精确率以及子事件关系的召回率表现优异, 均在 97% 以上. 然而,

261 262 263 264 265 266 267 268 269 270 271