Page 366 - 《软件学报》2025年第10期

P. 366

刘一丁等: 针对 LLM 对话属性情感理解的多代理一致性反思 4763

4.1 实验结果与分析
(1) 采用训练的方式微调模型的方法 (T5、DiaASQ、ChatGLM3、MACR) 性能优于基于 Zero-Shot 的方法,
这鼓励我们采用微调的方式来处理大语言模型对话属性情感理解任务.
实验结果表明, 基于微调的方法 (ChatGLM3、MACR、T5) 的性能显著超越基于 Zero-Shot 的方法 (ChatIE、
ICL). 其中, T5 在大语言模型对话属性情感理解任务上的性能比 ChatGPT (Zero-Shot) 高 25.87%, 比 ChatGPT
(ICL) 高 7.31%. 这说明, 在大语言模型对话属性情感理解任务中, 因为需要从对话中抽取出四元组, 因此任务难度
较高, 采用 Zero-Shot 的方式模型不能很好地理解任务. 值得注意的是, 相较于传统的 ICL 设定, MACR 的 Zero-
Shot 实现方式虽然取得了不错的效果, 但并不能得到令人满意的性能, 这鼓励我们采用微调的方式来解决大语言
模型对话属性情感理解任务.
(2) 模型加入子任务代理后, 模型在单实体匹配中性能远远超过基于预训练模型的方法以及基于 LLM 的方
法 (p-value<0.01), 这说明子任务代理帮助模型有了最优的实体抽取能力.
ChatGLM3 加入辅助任务后, 模型在单实体匹配中分别比 T5 和 DiaASQ 高 4.98% 和 12.03%, 这也验证了大
模型具有优秀的信息抽取能力. 此外, 在 ChatGLM3 加入子任务代理后, 单实体匹配相较于 ChatGLM3 提升了
2.13%, 其中属性实体以及代指提及的性能提升了 4.06% 和 2.72%, 这与子任务代理的目的相符, 即抽取出观点描
述语后抽取出观点描述语指向的属性实体以及代指提及, 更表明子任务代理范式的有效性.
(3) MACR 在对匹配中的性能相较于其他基线方法有显著提升 (p-value<0.01), 这表明 MACR 有着最优的实
体关系匹配能力.
对匹配中, MACR 相较于基于预训练模型的方法 T5 和 DiaASQ, 平均性能分别提升了 5.58% 和 15.40%, 相较
于基于大模型 Zero-Shot 的方法, 性能分别提升了 33.70% 和 16.96%, 这表明了 MACR 优秀的关系匹配能力. 相较
于 MACR 在单实体匹配中性能比 ChatGLM3 高 2.32%, 在对匹配中性能分别比 ChatGLM3 高 3.59%, 这充分表明
了子任务代理以及反思能够有效地提升帮助模型捕捉对话中的属性指代关系和属性情感关系, 也表明了子任务代
理以及反思的有效性.
(4) MACR 在四元组抽取中 F1 分数显著超越其他基准方法, 这说明子任务代理以及反思能有效地帮助模型
理解任务, 从而提升模型的性能.
在四元组抽取结果中, 基于 MACR 框架的模型性能显著超过其他方法 (p-value<0.01), 这说明 MACR 有着最
优的情感融合能力. 当模型加入子代理时, 模型在大语言模型对话属性情感理解任务的性能相较于 ChatGLM3 提
升了 2.56%, 这表明了子任务代理能够有效地让模型通过对子任务进行学习来提升大语言模型对话属性情感理解
任务的性能. 并且我们可以注意到, MACR 在单实体匹配中性能相较于 ChatGLM3 提升了 2.32%, 但在四元组抽取
的结果比 ChatGLM3 高 3.85%, 这表明我们的方法可以让模型更有效地捕捉对话文本实体间关系, 也验证了 MACR
的有效性.
4.2 消融实验与分析
为了验证我们提出模块的有效性, 本节针对 MACR 核心模块以及每个子任务进行消融实验, 从而进一步验证
MACR 各个模块的效果, 消融实验的结果如表 2 所示. 具体而言, MACR w/o reflection 即只采用子任务代理微调模
型得到结果, MACR w/o OM agent、MACR w/o EM agent、MACR w/o OE agent 表示我们分别删除了 OM 代理、
EM 代理、OE 代理以及反思模块. 我们通过删除单个子任务来评估单个任务对模型性能的影响. 接下来展开具体分析.
当反思模块被删除时, 单实体匹配的性能平均下降了 0.19%, 对匹配的性能分别平均下降了 0.94%, 四元组抽
取的结果下降了 1.29%, 这说明反思模块能有效评估模型生成结果中实体关系, 通过提升实体关系之间的一致性
来提升模型四元组抽取的一致性, 从而提升模型在大语言模型对话属性情感理解任务上的性能.
当反思模块以及 OM 代理被删除时, 在观点描述语抽取的性能达到 74.09% 的情况下, 抽取代指提及的性能
只有 71.1%, 相较于删除其他代理, OM 任务在抽取代指提及的性能有最大幅度的下降, 这说明模型在没有 OM 任
务的指导下, 出现了观点描述语与代指提及匹配难度上升的情况. 当反思模块以及 EM 代理被删除时, 模型虽然在
属性实体以及代指提及这两个单实体匹配中取得了不错的效果, 但是在 EM 对匹配中性能较差. 这说明当没有

361 362 363 364 365 366 367 368 369 370 371