Page 261 - 《软件学报》2025年第9期
P. 261

4172                                                       软件学报  2025  年第  36  卷第  9  期


                 4.4.1    分析  ek-prompt 生成结果
                    除了将   ek-prompt 应用于  GPT-4-Turbo  模型扩展  ECKG  外, 同时本文还与其他     3  个  LLM  在同一个测试集上
                 进行了对比实验, 包括      Anthropic 的  Claude 3  模型  [65] 、科大讯飞的星火认知大模型  V3.5 [66] 和阿里的通义千问大模
                 型  [67] . 使用  BERTScore 评价指标来衡量这些  LLM  生成事件的头三元组和尾三元组的性能, 图             4  展示了不同模型
                 在  4  种事件生成头三元组和尾三元组的          P BERT 、 R BERT  和  F BERT  结果. 从图  4  中我们观察到以下几点.

                          因果   时序   条件 0.866 6        因果   时序   条件 0.854 3       因果  时序   条件 0.860 4
                                                                                               子事件
                                                                    子事件
                                         子事件
                        GPT-4-Turbo  0.823 4       GPT-4-Turbo   0.840 8       GPT-4-Turbo  0.832 0
                                                                   0.876 5
                                                                                              0.868 5
                                       0.860 6
                                       0.872 1
                                                                                              0.874 6
                                                                   0.877 0
                                                                  0.853 9
                                                                                            0.844 8
                                     0.835 9
                      生成头三元组  Claude 3 讯飞星火  0.800 2  生成头三元组  Claude 3 讯飞星火  0.831 0  生成头三元组  Claude 3 讯飞星火  0.815 3
                                    0.811 3
                                                                                            0.832 0
                                                                  0.853 8
                                      0.853 8
                                                                   0.877 0
                                                                                             0.865 2
                                                                  0.866 6
                                      0.839 1
                                                                                             0.852 6
                                                                 0.835 6
                                    0.810 6
                                                                                           0.822 9
                                                                                            0.841 1
                                                                  0.863 1
                                     0.820 3
                                                                  0.861 1
                                                                                            0.839 0
                        通义千问     0.746 9 0.818 0    通义千问         0.830 0       通义千问       0.791 6
                                    0.807 1
                                                                                            0.830 0
                                                                  0.854 2
                                                                                          0.796 1
                                  0.764 8
                                                                 0.842 0
                                                                                           0.820 9
                                                                  0.856 5
                                   0.788 1
                        0.6  0.7  0.8  0.9  1.0    0.6   0.7  0.8  0.9  1.0    0.6  0.7  0.8  0.9  1.0
                                  P BERT                     R BERT                     F BERT
                                         子事件
                                                                    子事件
                          因果   时序   条件 0.858 5        因果   时序   条件 0.869 5       因果  时序   条件 0.864 0
                                                                                               子事件
                        GPT-4-Turbo   0.841 3      GPT-4-Turbo    0.866 4      GPT-4-Turbo   0.853 7
                                       0.864 3
                                                                   0.873 7
                                                                                              0.869 0
                                                                                              0.885 9
                                                                    0.895 3
                                       0.876 7
                                        0.893 0
                                                                                               0.895 2
                                                                    0.897 4
                                      0.854 7
                                                                  0.861 5
                                                                                             0.858 1
                      生成尾三元组  Claude 3 讯飞星火  0.799 5 0.877 1  生成头三元组  Claude 3 讯飞星火  0.840 5  生成头三元组  Claude 3 讯飞星火  0.819 5
                                        0.880 6
                                                                   0.885 2
                                                                                              0.882 9
                                                                    0.890 0
                                                                                              0.883 5
                                                                 0.841 7
                                     0.819 4
                                                                                            0.830 4
                                    0.804 8
                                                                  0.857 7
                                                                                            0.830 4
                                                                   0.888 0
                                                                                              0.884 2
                                     0.832 0
                                                                                             0.849 6
                        通义千问       0.788 4 0.880 4  通义千问          0.853 0      通义千问        0.822 9
                                                                  0.867 9
                                    0.808 5
                                                                                            0.830 2
                                                                  0.860 6
                                                                                            0.847 1
                                                                   0.873 2
                                     0.822 6
                        0.6  0.7  0.8  0.9  1.0    0.6   0.7  0.8  0.9  1.0    0.6  0.7  0.8  0.9  1.0
                                  P BERT                     R BERT                     F BERT
                                 图 4 比较不同    LLM  使用  ek-prompt 生成事件头尾三元组的      BERTScore

                    (1) 在生成  4  种事件关系的头三元组方面, 所有         LLM  在生成子事件的头元组和尾三元组上均表现较优和较稳
                 定的性能, 而在处理时序关系时表现略差.
                    (2) 在所有  BERTScore 得分中, GPT-4-Turbo  模型整体上表现最为出色. 尤其是在扩展条件和子事件关系时,
                                         R BERT  得到最高分  (0.897 4). 体现了  GPT-4-Turbo  模型强大的语言理解能力, 能够生
                 生成子事件关系的尾三元组的
                 成高质量的事件三元组.
                    (3) Claude 3  模型在多个指标上紧随     GPT-4-Turbo  模型之后, 特别是在生成条件关系的尾三元组时展现出较
                 好的性能,   P BERT  取得  0.880 6  的得分, 领先于其他模型, 表明了  Claude 3  模型具有较强的事件关系理解能力.
                    (4) 讯飞星火在扩展     4  种事件关系的任务中, 生成因果关系的头三元组比尾三元组有更好的表现, 而生成子事
                 件关系的尾三元组比头三元组得分更高, 显示了该模型在特定领域的优势.
   256   257   258   259   260   261   262   263   264   265   266