Page 262 - 《软件学报》2025年第9期
P. 262

黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法                                                     4173


                    (5) 通义千问模型扩展子事件关系的尾三元组表现还不错,                  R BERT  取得了  0.873 2  分. 然而, 在生成时序和条件
                                                                      P BERT  达到最低分  (0.746 9).
                 关系的三元组上的性能相对较差, 特别是生成条件关系的头三元组时
                    本文统计了图      4  中  4  个  LLM  在生成同种事件关系头尾三元组的平均        BERTScore 得分, 以综合评估每个模型
                 生成各种事件关系的整体性能. 平均           BERTScore 得分如图   5  所示. 从图  5  中可以看出  GPT-4-Turbo  模型总体表现
                 最佳, 在各种事件关系均展现出较为稳定的性能. 4              种事件关系的平均       F BER 均超过  0.85, 尤其在子事件上表现最
                                                                           T
                 好, 平均  F BER 获得了  0.884 9  分. Claude 3  模型在  4  种事件关系的平均  F BER 与 T  GPT-4-Turbo  模型和讯飞星火模
                           T
                 型的较为接近, 但     Claude 3  模型的平均  P BER 略低于  GPT-4-Turbo  模型, 却优于讯飞星火模型. 相比之下, 通义千
                                                   T
                 问模型是   4  个模型中得分最低, 但在子事件的平均           R BER 表现还不错.
                                                           T

                                          子事件
                           因果   时序   条件 0.862 6      因果   时序  条件 0.861 9      因果   时序   条件 0.862 2
                                                                   子事件
                                                                                             子事件
                        GPT-4-Turbo   0.843 9     GPT-4-Turbo    0.857 3    GPT-4-Turbo   0.850 5
                                        0.868 7
                                                                                           0.877 2
                                                                  0.885 9
                                                                                            0.884 9
                                        0.882 6
                                                                  0.887 2
                                      0.838 6
                                                                                          0.849 3
                                                                 0.860 2
                        Claude 3     0.827 5      Claude 3      0.846 3     Claude 3     0.836 7
                                                                                          0.857 5
                                      0.846 0
                                                                 0.869 5
                                       0.865 5
                                                                                           0.874 4
                                                                  0.883 5
                         讯飞星火        0.812 6      讯飞星火          0.838 7     讯飞星火         0.826 7
                                                                0.853 6
                                     0.819 3
                                                                                         0.836 1
                                     0.815 0
                                                                                         0.835 8
                                                                 0.860 4
                                       0.849 2
                                                                 0.874 6
                                                                                          0.861 6
                                                                                         0.839 8
                                     0.819 6
                         通义千问     0.767 7         通义千问          0.841 5     通义千问        0.807 3
                                                                 0.861 1
                                   0.786 7
                                                                                        0.813 2
                                                                0.851 3
                                    0.805 4
                                                                 0.864 9
                                                                                         0.834 0
                         0.6  0.7  0.8  0.9  1.0  0.6  0.7  0.8  0.9   1.0  0.6  0.7  0.8  0.9  1.0
                                  P BERT                    R BERT                   F BERT
                               图 5 比较不同    LLM  使用  ek-prompt 生成事件头尾三元组的平均        BERTScore

                    除此以外, 我们     4  人评审团从常识知识的角度对各个          LLM  生成事件三元组进行准确性地评估. 在评估的过程
                 中, 对于意见不一致的三元组进行二次审核, 以确保每个三元组的评价达到一致性. 本文统计了不同                               LLM  生成每
                 个事件头尾三元组的准确率, 详细结果如图              6  所示. 通过分析图   6  中的数据, 得出如下结论.


                                    因果  时序   条件   子事件                       因果   时序  条件   子事件
                                                   91.45                                  90.27
                                                   91.67                                      94.92
                      GPT-4-Turbo                             GPT-4-Turbo
                                                  90.98                                       94.95
                                                   92.14                                   91.06
                                          81.66                                        86.90
                                                   91.67                          82.24
                        Claude 3                                Claude 3
                                            83.86                                         90.51
                                                 90.16                                     91.63
                                             85.52                      71.19
                                               87.02                                 84.78
                        讯飞星火                                    讯飞星火
                                 72.44                                                     91.63
                                                 89.96                             83.04
                                                   91.47                              86.68
                                                 89.52                                       93.91
                        通义千问                                    通义千问
                                                  90.77                               85.71
                                                88.76                                     89.97
                             70   75   80  85   90   95  100          70  75   80   85  90   95   100
                                         百分比 (%)                                 百分比 (%)
                                       (a) 生成头三元组                              (b) 生成尾三元组
                                 图 6 人工评估不同      LLM  使用  ek-prompt 生成事件头尾三元组的准确率
   257   258   259   260   261   262   263   264   265   266   267