Page 261 - 《软件学报》2025年第9期
P. 261
4172 软件学报 2025 年第 36 卷第 9 期
4.4.1 分析 ek-prompt 生成结果
除了将 ek-prompt 应用于 GPT-4-Turbo 模型扩展 ECKG 外, 同时本文还与其他 3 个 LLM 在同一个测试集上
进行了对比实验, 包括 Anthropic 的 Claude 3 模型 [65] 、科大讯飞的星火认知大模型 V3.5 [66] 和阿里的通义千问大模
型 [67] . 使用 BERTScore 评价指标来衡量这些 LLM 生成事件的头三元组和尾三元组的性能, 图 4 展示了不同模型
在 4 种事件生成头三元组和尾三元组的 P BERT 、 R BERT 和 F BERT 结果. 从图 4 中我们观察到以下几点.
因果 时序 条件 0.866 6 因果 时序 条件 0.854 3 因果 时序 条件 0.860 4
子事件
子事件
子事件
GPT-4-Turbo 0.823 4 GPT-4-Turbo 0.840 8 GPT-4-Turbo 0.832 0
0.876 5
0.868 5
0.860 6
0.872 1
0.874 6
0.877 0
0.853 9
0.844 8
0.835 9
生成头三元组 Claude 3 讯飞星火 0.800 2 生成头三元组 Claude 3 讯飞星火 0.831 0 生成头三元组 Claude 3 讯飞星火 0.815 3
0.811 3
0.832 0
0.853 8
0.853 8
0.877 0
0.865 2
0.866 6
0.839 1
0.852 6
0.835 6
0.810 6
0.822 9
0.841 1
0.863 1
0.820 3
0.861 1
0.839 0
通义千问 0.746 9 0.818 0 通义千问 0.830 0 通义千问 0.791 6
0.807 1
0.830 0
0.854 2
0.796 1
0.764 8
0.842 0
0.820 9
0.856 5
0.788 1
0.6 0.7 0.8 0.9 1.0 0.6 0.7 0.8 0.9 1.0 0.6 0.7 0.8 0.9 1.0
P BERT R BERT F BERT
子事件
子事件
因果 时序 条件 0.858 5 因果 时序 条件 0.869 5 因果 时序 条件 0.864 0
子事件
GPT-4-Turbo 0.841 3 GPT-4-Turbo 0.866 4 GPT-4-Turbo 0.853 7
0.864 3
0.873 7
0.869 0
0.885 9
0.895 3
0.876 7
0.893 0
0.895 2
0.897 4
0.854 7
0.861 5
0.858 1
生成尾三元组 Claude 3 讯飞星火 0.799 5 0.877 1 生成头三元组 Claude 3 讯飞星火 0.840 5 生成头三元组 Claude 3 讯飞星火 0.819 5
0.880 6
0.885 2
0.882 9
0.890 0
0.883 5
0.841 7
0.819 4
0.830 4
0.804 8
0.857 7
0.830 4
0.888 0
0.884 2
0.832 0
0.849 6
通义千问 0.788 4 0.880 4 通义千问 0.853 0 通义千问 0.822 9
0.867 9
0.808 5
0.830 2
0.860 6
0.847 1
0.873 2
0.822 6
0.6 0.7 0.8 0.9 1.0 0.6 0.7 0.8 0.9 1.0 0.6 0.7 0.8 0.9 1.0
P BERT R BERT F BERT
图 4 比较不同 LLM 使用 ek-prompt 生成事件头尾三元组的 BERTScore
(1) 在生成 4 种事件关系的头三元组方面, 所有 LLM 在生成子事件的头元组和尾三元组上均表现较优和较稳
定的性能, 而在处理时序关系时表现略差.
(2) 在所有 BERTScore 得分中, GPT-4-Turbo 模型整体上表现最为出色. 尤其是在扩展条件和子事件关系时,
R BERT 得到最高分 (0.897 4). 体现了 GPT-4-Turbo 模型强大的语言理解能力, 能够生
生成子事件关系的尾三元组的
成高质量的事件三元组.
(3) Claude 3 模型在多个指标上紧随 GPT-4-Turbo 模型之后, 特别是在生成条件关系的尾三元组时展现出较
好的性能, P BERT 取得 0.880 6 的得分, 领先于其他模型, 表明了 Claude 3 模型具有较强的事件关系理解能力.
(4) 讯飞星火在扩展 4 种事件关系的任务中, 生成因果关系的头三元组比尾三元组有更好的表现, 而生成子事
件关系的尾三元组比头三元组得分更高, 显示了该模型在特定领域的优势.

