Page 367 - 《软件学报》2025年第10期
P. 367

4764                                                      软件学报  2025  年第  36  卷第  10  期


                 EM  代理时, 模型对于指代关系匹配难度加大, 这造成了               EM  对匹配性能不佳. 值得注意的是, 当         EM  代理被删除
                 时, 模型在  OM  对匹配中性能有着最大的下降, 这说明            EM  代理能够有效地指导模型理解对话中的指代关系. 当反
                 思模块以及    OE  代理被删除时, 相较于      MACR  删除反思模块, 模型对属性实体的抽取中性能有最直观的下降, 这
                 也说明了   OE  代理能够指导模型抽取出观点描述语对应的属性实体.
                  4.3   不同基座以及  MACR  方法的进一步有效性分析
                    为了验证    MACR  框架的有效性, 本节采用和微调         ChatGLM3 一样的实验设置来微调        Baichuan2-7B-Chat (https://
                 huggingface.co/baichuan-inc/Baichuan2-7B-Chat), 实验的结果如表  3  所示. 从表中我们可以看到, Baichuan2  在微调
                 后性能优于    ChatGLM3, 这是可能因为     Baichuan2-7B  因为参数量多于   ChatGLM3-6B, 所以  Baichuan2  有更好的中
                 文理解能力. 当    Baichuan2  基座模型加入   MACR  框架后, 模型的性能在单实体匹配, 对匹配和四元组匹配上的性
                 能平均提升了     2.80%、3.27%  和  3.13%. 这说明  MACR  框架能够有效地帮助模型更好地抽取和理解对话中的实体
                 以及实体间的关系, 这进一步说明了我们方法的有效性.

                                  表 3 不同基座模型下引入与不引入           MACR  框架的模型实验结果 (%)

                                                单实体匹配                         对匹配
                       模型                                                                     四元组匹配
                                    entity  mention  opinion  ploarity  OE      EM     OM
                      ChatGLM3      68.17    70.74    68.89    82.82   58.35   57.95   59.24    50.46
                     Baichuan2 [42]  69.75   68.61    69.06    79.74   61.03   58.23   58.39    51.79
                   MACR (ChatGLM3)  73.29    73.21    70.58    82.83   62.39   62.12   61.79    54.31
                   MACR (Baichuan2)  72.78   71.78    70.81    82.97   63.62   62.67   61.16    54.92

                  4.4   结合案例的多代理一致性反思方法有效性分析
                    为了进一步验证我们模型的有效性, 我们选取了相关案例来验证反思的有效性. 对于图                            3  中给定的文本, 当不
                 进行反思时, 模型错误地认为观点描述语“太怂”指向的属性实体为“刘文卿”以及观点描述语“口碑一般”指向的属
                 性实体为“他主演的一部电影”, 模型出现了较为严重的幻觉现象, 但是并没有一种方法能够监督模型的输出进而
                 纠正模型. 当加入一致性增强的反思模块后, 模块中的评估器能够发现这种错误, 产生较低的奖励值, 从而触发阈
                 值让模型进行反思. 反思后的结果如图            3  中  MACR  所示, w/o reflection  表示  MACR  模型去掉一致性增强的反思
                 模块. 当加入反思后, 模型能够在         prompt 的指导下根据历史信息进行反思, 根据历史内容重新抽取四元组, 从而产
                 生正确的结果.

                                            输入                           MACR w/o reflection
                             指令:





                             对话文本:
                                                                            ၂ᇁྟ௟ܙ


                                                                            ၂ᇁྟّන

                                                                              MACR






                                                      图 3 案例分析图
   362   363   364   365   366   367   368   369   370   371   372