Page 265 - 《软件学报》2025年第9期
P. 265

4176                                                       软件学报  2025  年第  36  卷第  9  期


                 言模型, 但在其他     3  种事件关系上表现略差. 在尾三元组中, GPT-3.5-Turbo        模型只在条件关系的表现高于文心一
                 言模型. 值得注意的是, 这两个模型的性能表现极为不平衡, 特别是在增强尾三元组时, GPT-3.5-Turbo                      模型在因果
                 关系的准确率低至       82.99%, 而在条件关系下又提高到         92.89%. 同时, 文心一言模型在时序关系的最高准确率达
                 92.59%, 而条件关系最低, 仅为     82.17%.

                              ft-gen   GPT-3.5-Turbo  文心一言              ft-gen  GPT-3.5-Turbo  文心一言
                        97                                        97          95.72   97.46
                                     96.79   97.04   96.58                                     97.08
                        95                                        95
                                                                              92.59
                        93           91.84                        93   93.88
                             92.93           91.30   91.54        91                  92.89
                       百分比 (%)  89  90.31            90.97      百分比 (%)  89    90.18           89.10
                        91
                        87           88.71   88.05                87   88.20                   88.82
                             87.02
                        85                                        85
                                                                                       82.17
                        83                                        83
                                                                         82.99
                        81                                        81
                             因果      时序      条件     子事件                因果     时序      条件     子事件
                                     (a) 生成头三元组                               (b) 生成尾三元组
                                   图 10 人工评估微调与原始         LLM  生成事件头尾三元组的准确率

                    此外, 为了更直观地展示微调模型与原始              LLM  在不同事件关系上的性能差异, 本文对图            10  中同种关系的头
                 尾三元组的准确率进行平均处理, 结果如图              11  所示. 从图中可以看出, ft-gen  模型明显优于原始       LLM, 特别是条件
                 关系的头尾三元组平均准确率最高, 达到了              97.25%, 相比于  GPT-3.5-Turbo  和文心一言模型分别提升了      7.49%  和
                 12.12%. 相比之下, GPT-3.5-Turbo  和文心一言模型性能较为落后, 尤其是          GPT-3.5-Turbo  模型在因果关系下表现
                 最为不佳. 同时, 文心一言模型在扩展不同事件关系下的平均准确率波动较大, 虽然在时序和子事件关系下表现较
                 好, 但在因果和条件关系表现较差.


                                                   ft-gen  GPT-3.5-Turbo  文心一言
                                98
                                                                     97.25
                                96                                                 96.83
                                                       96.26
                                94
                               百分比 (%)   92  93.41     92.22         90.47         90.32
                                90
                                                                                   89.90
                                        87.61          89.45
                                88
                                                                     86.74
                                      86.65
                                86
                                         因果            时序            条件           子事件
                                  图 11 人工评估微调与原始        LLM  生成事件头尾三元组的平均准确率

                    从对微调与未经过微调的          LLM  的实验结果来看, 在扩展       ECKG  的  4  种事件关系任务中, 微调后的模型在生
                 成每种事件的头尾三元组的性能上均有所提升, 并且整体表现较为平衡. 相比之下, 未经微调的                             LLM  性能较为不
                 稳定, 有些事件关系表现优异, 但有些略显不足. 然而, 对于扩展                 ECKG  任务, 考虑到我们的目标是确保每个事件
                 的头尾三元组都具有高精度, 以保持整个知识图谱的高质量. 因此, 经过微调的模型显得更加适用.

                 4.4.3    评估验证三元组的微调模型性能
                    本文使用    ek-prompt 和微调后  LLM  生成的事件三元组, 并在特定的测试集上进行了评估, 验证了这两种方法
                 生成三元组的有效性. 为了进一步提升扩展后的               ECKG  三元组的精度, 对所有获取的新事件三元组进行了一个全
   260   261   262   263   264   265   266   267   268   269   270