Page 266 - 《软件学报》2025年第9期
P. 266

黄俏娟 等: 基于大语言模型的事件常识知识图谱扩展方法                                                     4177


                 面的评估. 由于数据规模庞大, 仅依靠人工审核的方法显然不现实. 因此, 本文采用了微调后的                             GPT-3.5-Turbo
                 模型来验证三元组的正确性.
                    在验证任务中, 本文使用了准确率、精确率、召回率和                   F1  值来评估微调模型的性能. 此外, 还与未经过微调
                 的  GPT-3.5-Turbo、GPT-4-Turbo、讯飞星火和文心一言模型进行了对比实验. 图             12  展示了实验结果, 其中     ft-ver
                 表示用于验证任务的微调模型. 通过对图             12  中实验数据的分析, 得到以下结论.

                                  准确率   精确率    召回率   F1 值                  准确率    精确率   召回率    F1 值
                                                  91.77                                       97.64
                                                  92.87                                       97.74
                          ft-ver                                    ft-ver
                                                    96.04                                      99.90
                                                   94.43                                       98.81
                                         74.70                                          85.25
                                             83.08                                            97.73
                    GPT-3.5-Turbo                             GPT-3.5-Turbo
                                            81.83                                        86.92
                                             82.45                                         92.01
                                         75.20                                 68.24
                                             82.22                                             98.69
                     GPT-4-Turbo                               GPT-4-Turbo
                                              84.02                            68.41
                                             83.11                                   80.81
                                         74.21                                             91.54
                       讯飞星火              75.21                   讯飞星火                         98.09
                                                    96.17                                   93.16
                                              84.41                                          95.56
                                           78.17                                          90.27
                       文心一言                 80.62                文心一言                          99.01
                                                  92.08                                    90.95
                                               85.97                                         94.81
                             55 60 65 70 75 80 85 90 95 100 105 110    55 60 65 70 75 80 85 90 95 100 105 110
                                         百分比 (%)                                  百分比 (%)
                                        (a) 因果关系                                  (b) 时序关系
                                  准确率   精确率    召回率   F1 值                  准确率    精确率   召回率    F1 值
                                                    96.12                                    95.99
                                                    96.77                                    95.47
                          ft-ver                                    ft-ver
                                                     99.28                                     99.91
                                                     98.01                                    97.64
                                    66.57                                            81.00
                                                    97.02                             82.89
                    GPT-3.5-Turbo                             GPT-3.5-Turbo
                                     67.32                                                    97.17
                                           79.49                                          89.47
                                 60 .00                                             78.05
                                                     98.13                              85.68
                     GPT-4-Turbo                               GPT-4-Turbo
                                 59.57                                                   88.33
                                        74.13                                            86.98
                                           78.41                                     80.09
                       讯飞星火                          98.08       讯飞星火                  83.20
                                           79.11                                             95.26
                                               87.58                                      88.82
                                           79.90                                      81.15
                       文心一言                          97.99       文心一言                  83.44
                                            80.77                                             96.44
                                                88.55                                     89.47
                             55 60 65 70 75 80 85 90 95 100 105 110    55 60 65 70 75 80 85 90 95 100 105 110
                                         百分比 (%)                                  百分比 (%)
                                        (c) 条件关系                                 (d) 子事件关系
                                        图 12 不同   LLM  验证各事件关系三元组的性能对比

                    (1) 在所有测试的    LLM  中, ft-ver 模型在验证  4  种不同事件关系的任务中表现出较好且稳定的性能. 特别是在
                 时序、条件和子事件的召回率高达            99%  以上. 最低的准确率体现在因果关系中, 但仍然保持在               91%  以上, 也是相
                 当不错的表现.
                    (2) GPT-3.5-Turbo  模型在时序和条件关系的精确率以及子事件关系的召回率表现优异, 均在                    97%  以上. 然而,
   261   262   263   264   265   266   267   268   269   270   271