Page 262 - 《软件学报》2025年第9期

P. 262

黄俏娟等: 基于大语言模型的事件常识知识图谱扩展方法 4173

(5) 通义千问模型扩展子事件关系的尾三元组表现还不错, R BERT 取得了 0.873 2 分. 然而, 在生成时序和条件
P BERT 达到最低分 (0.746 9).
关系的三元组上的性能相对较差, 特别是生成条件关系的头三元组时
本文统计了图 4 中 4 个 LLM 在生成同种事件关系头尾三元组的平均 BERTScore 得分, 以综合评估每个模型
生成各种事件关系的整体性能. 平均 BERTScore 得分如图 5 所示. 从图 5 中可以看出 GPT-4-Turbo 模型总体表现
最佳, 在各种事件关系均展现出较为稳定的性能. 4 种事件关系的平均 F BER 均超过 0.85, 尤其在子事件上表现最
T
好, 平均 F BER 获得了 0.884 9 分. Claude 3 模型在 4 种事件关系的平均 F BER 与 T GPT-4-Turbo 模型和讯飞星火模
T
型的较为接近, 但 Claude 3 模型的平均 P BER 略低于 GPT-4-Turbo 模型, 却优于讯飞星火模型. 相比之下, 通义千
T
问模型是 4 个模型中得分最低, 但在子事件的平均 R BER 表现还不错.
T

子事件
因果时序条件 0.862 6 因果时序条件 0.861 9 因果时序条件 0.862 2
子事件
子事件
GPT-4-Turbo 0.843 9 GPT-4-Turbo 0.857 3 GPT-4-Turbo 0.850 5
0.868 7
0.877 2
0.885 9
0.884 9
0.882 6
0.887 2
0.838 6
0.849 3
0.860 2
Claude 3 0.827 5 Claude 3 0.846 3 Claude 3 0.836 7
0.857 5
0.846 0
0.869 5
0.865 5
0.874 4
0.883 5
讯飞星火 0.812 6 讯飞星火 0.838 7 讯飞星火 0.826 7
0.853 6
0.819 3
0.836 1
0.815 0
0.835 8
0.860 4
0.849 2
0.874 6
0.861 6
0.839 8
0.819 6
通义千问 0.767 7 通义千问 0.841 5 通义千问 0.807 3
0.861 1
0.786 7
0.813 2
0.851 3
0.805 4
0.864 9
0.834 0
0.6 0.7 0.8 0.9 1.0 0.6 0.7 0.8 0.9 1.0 0.6 0.7 0.8 0.9 1.0
P BERT R BERT F BERT
图 5 比较不同 LLM 使用 ek-prompt 生成事件头尾三元组的平均 BERTScore

除此以外, 我们 4 人评审团从常识知识的角度对各个 LLM 生成事件三元组进行准确性地评估. 在评估的过程
中, 对于意见不一致的三元组进行二次审核, 以确保每个三元组的评价达到一致性. 本文统计了不同 LLM 生成每
个事件头尾三元组的准确率, 详细结果如图 6 所示. 通过分析图 6 中的数据, 得出如下结论.

因果时序条件子事件因果时序条件子事件
91.45 90.27
91.67 94.92
GPT-4-Turbo GPT-4-Turbo
90.98 94.95
92.14 91.06
81.66 86.90
91.67 82.24
Claude 3 Claude 3
83.86 90.51
90.16 91.63
85.52 71.19
87.02 84.78
讯飞星火讯飞星火
72.44 91.63
89.96 83.04
91.47 86.68
89.52 93.91
通义千问通义千问
90.77 85.71
88.76 89.97
70 75 80 85 90 95 100 70 75 80 85 90 95 100
百分比 (%) 百分比 (%)
(a) 生成头三元组 (b) 生成尾三元组
图 6 人工评估不同 LLM 使用 ek-prompt 生成事件头尾三元组的准确率

257 258 259 260 261 262 263 264 265 266 267