Page 264 - 《软件学报》2025年第9期
P. 264
黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法 4175
指标得分都超过 0.88 分. 相反, 在条件关系时表现较差, P BER 仅为 0.796 8.
T
本文对图 8 中每种事件关系的头尾三元组在 BERTScore 各个指标上进行平均处理, 结果如图 9 所示. 从图 9
T
中可以看出, 3 个 LLM 在扩展 ECKG 任务中都表现不错, F BER 得分都超过 0.84. 具体来说, 微调后的模型表现最
佳, 各项得分都高于原始 LLM, 尤其在子事件关系上, R BER 取的最高分, 达到 0.901 8. 相比之下, 未经过微调的
T
GPT-3.5-Turbo 和文心一言模型表现较为相近, 但 GPT-3.5-Turbo 模型在扩展时序关系的得分更低.
因果 时序 条件 子事件 因果 时序 条件 子事件
1.0 0.863 4 0.872 2 0.868 1 0.880 2 0.871 7 0.881 2 0.882 7 0.890 6 0.867 5 0.876 7 0.875 3 0.885 4 1.0 0.874 0 0.882 3 0.885 5 0.906 1 0.882 2 0.885 4 0.889 3 0.912 9 0.878 1 0.883 9 0.887 4 0.909 5
ft-gen 0.9 ft-gen 0.9
0.8
0.8
0.7 0.7
P BERT R BERT F BERT P BERT R BERT F BERT
因果 时序 条件 子事件 1.0 因果 时序 条件 子事件
GPT-3.5-Turbo 0.9 0.858 8 0.812 5 0.850 2 0.869 3 0.859 4 0.833 8 0.869 6 0.878 7 0.859 1 0.823 0 0.859 8 0.874 0 GPT-3.5-Turbo 0.9 0.860 7 0.872 8 0.879 2 0.875 8 0.874 3 0.868 7 0.883 9 0.884 8 0.867 5 0.870 7 0.881 5 0.880 3
1.0
0.8
0.8
0.7 0.7
P BERT R BERT F BERT P BERT R BERT F BERT
因果 时序 条件 子事件 因果 时序 条件 子事件
1.0 0.896 9 0.860 7 0.889 5 0.893 2 1.0 0.884 3 0.878 2 0.874 0 0.880 9 0.887 6 0.898 6 0.896 4 0.867 7 0.886 0 0.888 3 0.885 1
文心一言 0.9 0.836 3 0.810 3 0.796 8 0.844 5 0.855 4 0.848 3 0.827 1 0.825 1 文心一言 0.9 0.854 9
0.8
0.8
0.7 0.7
P BERT R BERT F BERT P BERT R BERT F BERT
(a) 生成头三元组 (b) 生成尾三元组
图 8 微调与原始 LLM 生成事件头尾三元组的 BERTScore
0.91 0.91 0.91
ft-gen ft-gen 0.901 8 ft-gen
0.90 GPT-3.5-Turbo 0.90 GPT-3.5-Turbo 0.90 GPT-3.5-Turbo 0.897 5
文心一言 0.893 2 文心一言 0.893 0 文心一言
0.89 0.89 0.886 0 0.89 0.889 2
0.885 5 0.883 3
0.880 3 0.881 4
0.88 0.877 3 0.876 8 0.88 0.877 0 0.877 0 0.881 8 0.88 0.872 8
P BERT 0.87 0.868 7 0.864 7 0.872 6 R BERT 0.87 0.870 8 0.876 8 F BERT 0.87 0.863 3 0.870 7 0.877 2
0.86 0.859 8 0.86 0.866 1 0.86 0.856 6
0.866 9
0.858 0
0.85 0.845 6 0.847 3 0.85 0.851 3 0.85 0.856 7
0.846 9
0.84 0.842 7 0.84 0.84
0.837 5
0.83 0.83 0.83
因果 时序 条件 子事件 因果 时序 条件 子事件 因果 时序 条件 子事件
(a) P BERT (b) R BERT (c) F BERT
图 9 微调与原始 LLM 生成事件头尾三元组的平均 BERTScore
与此同时, 本文人工评估了微调后和原始的 LLM 生成的头尾三元组的准确率, 详细的实验结果在图 10 中展示.
从图 10 中, 可以观察到以下信息.
(1) 在扩展头尾三元组中, ft-gen 模型在所有事件关系下均获得最高的准确率, 且具有较好的平衡性. 每种事件
关系的准确率均超过 92%, 其中条件关系的头尾三元组的准确率尤为突出, 分别达到了 97.04% 和 97.46%.
(2) GPT-3.5-Turbo 与文心一言模型相比, 在头三元组的表现中, GPT-3.5-Turbo 模型在因果关系上优于文心一

