Page 367 - 《软件学报》2025年第10期

P. 367

4764 软件学报 2025 年第 36 卷第 10 期

EM 代理时, 模型对于指代关系匹配难度加大, 这造成了 EM 对匹配性能不佳. 值得注意的是, 当 EM 代理被删除
时, 模型在 OM 对匹配中性能有着最大的下降, 这说明 EM 代理能够有效地指导模型理解对话中的指代关系. 当反
思模块以及 OE 代理被删除时, 相较于 MACR 删除反思模块, 模型对属性实体的抽取中性能有最直观的下降, 这
也说明了 OE 代理能够指导模型抽取出观点描述语对应的属性实体.
4.3 不同基座以及 MACR 方法的进一步有效性分析
为了验证 MACR 框架的有效性, 本节采用和微调 ChatGLM3 一样的实验设置来微调 Baichuan2-7B-Chat (https://
huggingface.co/baichuan-inc/Baichuan2-7B-Chat), 实验的结果如表 3 所示. 从表中我们可以看到, Baichuan2 在微调
后性能优于 ChatGLM3, 这是可能因为 Baichuan2-7B 因为参数量多于 ChatGLM3-6B, 所以 Baichuan2 有更好的中
文理解能力. 当 Baichuan2 基座模型加入 MACR 框架后, 模型的性能在单实体匹配, 对匹配和四元组匹配上的性
能平均提升了 2.80%、3.27% 和 3.13%. 这说明 MACR 框架能够有效地帮助模型更好地抽取和理解对话中的实体
以及实体间的关系, 这进一步说明了我们方法的有效性.

表 3 不同基座模型下引入与不引入 MACR 框架的模型实验结果 (%)

单实体匹配对匹配
模型四元组匹配
entity mention opinion ploarity OE EM OM
ChatGLM3 68.17 70.74 68.89 82.82 58.35 57.95 59.24 50.46
Baichuan2 [42] 69.75 68.61 69.06 79.74 61.03 58.23 58.39 51.79
MACR (ChatGLM3) 73.29 73.21 70.58 82.83 62.39 62.12 61.79 54.31
MACR (Baichuan2) 72.78 71.78 70.81 82.97 63.62 62.67 61.16 54.92

4.4 结合案例的多代理一致性反思方法有效性分析
为了进一步验证我们模型的有效性, 我们选取了相关案例来验证反思的有效性. 对于图 3 中给定的文本, 当不
进行反思时, 模型错误地认为观点描述语“太怂”指向的属性实体为“刘文卿”以及观点描述语“口碑一般”指向的属
性实体为“他主演的一部电影”, 模型出现了较为严重的幻觉现象, 但是并没有一种方法能够监督模型的输出进而
纠正模型. 当加入一致性增强的反思模块后, 模块中的评估器能够发现这种错误, 产生较低的奖励值, 从而触发阈
值让模型进行反思. 反思后的结果如图 3 中 MACR 所示, w/o reflection 表示 MACR 模型去掉一致性增强的反思
模块. 当加入反思后, 模型能够在 prompt 的指导下根据历史信息进行反思, 根据历史内容重新抽取四元组, 从而产
生正确的结果.

输入 MACR w/o reflection
指令:

对话文本:
၂ᇁྟ௟ܙ

၂ᇁྟّන

MACR

图 3 案例分析图

362 363 364 365 366 367 368 369 370 371 372