Page 263 - 《软件学报》2025年第9期

P. 263

4174 软件学报 2025 年第 36 卷第 9 期

(1) GPT-4-Turbo 模型在所有模型中生成的事件三元组准确率最高, 并且每种关系的表现较为稳定, 准确率均
超过 90%. 其中时序和条件关系的尾三元组准确率分别高达 94.92% 和 94.95%.
(2) Claude 3 模型在生成子事件关系的三元组表现较好且均衡, 头尾三元组的准确率都在 90% 以上. 与之相反
的是, 在扩展其他 3 种关系时性能波动较大, 最为明显的是时序和条件关系. 如生成时序关系的头三元组准确率高
达 91.67%, 而尾三元组的准确率仅为 82.24%.
(3) 讯飞星火模型在扩展 4 种事件关系的头尾三元组任务中表现均不平衡, 尤其是在生成条件关系的尾三元
组是准确率较高, 但生成因果关系尾三元组的准确率在所有模型中最低 (71.19%).
(4) 通义千问模型扩展 4 种事件关系的头三元组准确率比尾三元组更为稳定, 在尾事件三元组中, 时序关系的
准确率较高, 达到 93.91%, 但在扩展条件关系时表现略差.
通过将图 6 的人工评估各种事件关系头尾三元组的准确率进行平均处理, 结果如图 7 所示. 图 7 中清晰展现
了 GPT-4-Turbo 模型在扩展所有事件关系的优越性能, 都获得了最高的平均准确率. 紧接着是通义千问模型表现
还不错, 但略微不足的是在子事件关系时, 该模型的平均准确率略低于 Claude 3 模型. 然而, Claude 3 模型在其他
3 种事件关系的整体表现都不及通义千问模型. 相比之下, 讯飞星火模型的整体性能相对较差且不稳定, 尽管子事
件关系取得较高的平均准确率 (86.5%), 但因果关系的平均准确率仅为 78.36%.

GPT-4-Turbo Claude 3 讯飞星火通义千问
93
93.30 91.60
90.86 92.97
91 91.72 90.90
89 89.08 86.96 88.24 89.37
百分比 (%) 87 84.28 85.90 87.19 86.50
85
83
81 82.04
78.36
79
77
因果时序条件子事件
图 7 人工评估不同 LLM 使用 ek-prompt 生成事件头尾三元组的平均准确率

总体来说, 通过对比不同 LLM 在生成事件三元组的表现, 实验结果揭示了各个 LLM 在处理复杂事件关系的
性能差异, 同时也突出了 GPT-4-Turbo 模型在理解和生成高精度事件三元组的卓越能力, 这对于扩展 ECKG 具有
重要的价值.

4.4.2 评估生成三元组的微调模型性能
本文通过微调 GPT-3.5-Turbo 模型生成更多具体的事件三元组外, 还与未经过微调的 GPT-3.5-Turbo 模型和
百度的文心一言模型 V4.0 [68] 在相同的测试集上进行了详细的对比实验, 并使用了 P BERT 、 R BERT 和 F BERT 对这 3 个
LLM 生成的事件三元组进行评估. 实验结果如图 8 所示, 图中的 ft-gen 表示经过微调的模型. 通过对图 8 的细心
观察, 得到以下的结论.
(1) ft-gen 模型与未经过微调的 LLM 相比, ft-gen 模型在 BERTScore 所有的指标上有一定的提升, 并且在扩
展 4 种事件关系的性能表现出较高的稳定性. 尤其在生成子事件的尾三元组中表现更为突出, R BER 取得了最高
T
分 0.912 9, F BER 为 T 0.909 5.
(2) 与 ft-gen 模型相比, GPT-3.5-Turbo 模型在扩展 4 种事件关系的头三元组表现较为不均衡. 在 F BER 得分
T
中, 时序关系为 0.823, 而子事件关系达到 0.874. 但该模型在扩展尾事件三元组的整体表现相对稳定, 各种事件关
系的得分均在 0.86 和 0.88 之间.
(3) 文心一言模型在每种事件关系尾事件三元组的 BERTScore 评价上较为平衡, 得分都在 0.85–0.88 之间. 然
而, 在扩展头三元组任务中, 性能的稳定性有所下降. 例如, 在生成子事件头三元组时表现较好, 所有的 BERTScore

258 259 260 261 262 263 264 265 266 267 268