Page 359 - 《软件学报》2025年第10期

P. 359

4756 软件学报 2025 年第 36 卷第 10 期

络来捕捉词与词之间的关系, 提升模型的效果. Liang 等人 [20] 将 ASTE 任务视为多类别 span 标记分类问题, 该方法
设计了 3 个标签集合, 通过在标签集合中进行贪心推理来得到三元组. 以上方法将 ABSA 任务视为序列级分类问
题, 这类方法虽然取得了不错的效果, 但性能很大程度上受限于预训练模型, 并且存在模型预测过程中没有标签的
语义信息的缺陷.
基于生成模型的方法一般采用 T5 [13] 等生成模型. 这类方法通过模型直接得到需要抽取的信息. Bao 等人 [14] 通
过树型结构的输出来强调需要抽取的实体间的关系. Zhang 等人 [11] 通过释义的方式得到输出. Mao 等人 [21] 将元组
的生成顺序转化为树上的路径, 采用这种生成方式来减少元组之间的依赖性以及解决一对多问题 (一个属性词对
应多个观点描述语). Gou 等人 [12] 引入一种基于元素顺序的 prompt 学习方法, 通过聚合多视图的结果来提升模型
性能. 以上工作通过从数据的角度出发, 让模型输出结果中附带额外信息来提升模型性能.
近些年来很多 ABSA 相关的工作关注于对话的数据, 但遗憾的是, 上述工作大多只考虑了属性情感映射, 其
所构建的数据集并没有同时考虑到对话场景下属性指代映射和属性情感映射, 显式地建模这些映射能够帮助模型
更好地理解对话中的情感. 因此我们在 ABSA 任务中加入指代映射, 并通过设置子任务代理让模型更好地理解这
些实体间的关系.
1.2 基于反思的大语言模型
LLM 在庞大的参数量基础上训练了海量的数据, 因此表现出强大的语言理解能力, 并在广泛的自然语言处理
任务中取得了令人印象深刻的结果. 如今 LLM 已经成为 NLP 领域新的范式, 目前许多高校和机构都开源了大语
言模型, 比如 Meta 开源的 LLaMA [22] 以及智谱 AI 开源的 ChatGLM [23] 等. 随着大模型的出现, 近期提出的 agent 大
多以 Zero-Shot 的方法通过设计提示词来挖掘 LLM 的能力, Zhang 等人 [24] 提出一种自动的协作学习方法, 该方法
将用户和项目同时作为 agent, 通过两个 agent 之间的交互来解决复杂任务. Xu 等人 [25] 通过多 agent 之间相互纠正
来提升 LLM 处理复杂任务的能力. Liu 等人 [26] 采用分而治之的方法, 将复杂任务拆分为若干个难度较小的子任
务, 通过解决拆分后的子任务来解决复杂任务, 让代理能够解决现实世界中复杂的任务.
尽管 LLM 对语言有着极强的理解能力, 但其仍然存在较为严重的幻觉问题. 目前很多工作都着重于解决这一
问题. ICL (in-context learning) [27] 在输入的时候给模型一个示例, 让模型在示例的指导下得到输出. ReAct [28] 通过将
推理与行动相结合的方法缓解 LLM 中的幻觉问题. Chain-of-thought (CoT) [29] 让模型输出答案的同时输出得到答
案的推导过程, 通过让模型思考来缓解幻觉问题. ToT [30] 通过对模型的思考结果进行评估, 在将生成过程转换为在
树形结构上的搜索过程来减少幻觉. Reflexion [31] 设计了启发式规则, 当模型输出的答案质量较低时执行反思操作,
通过该方式减少幻觉. 上述工作都能有效地减少大模型的幻觉问题, 其中让模型进行反思的方式挖掘了模型自身
的能力, 成为近期研究的热点. 反思是一种让模型评估生成结果并让模型在某些条件下重新生成答案的方法. 目
前, 反思成为处理大模型幻觉问题一种常见的方式, 很多工作利用反思减少幻觉现象的发生. Shinn 等人 [32] 通过设
置一个评估器, 当模型的动作评估结果不通过时进行反思. Huang 等人 [33] 设计了一个评估模型的输出的方法, 该方
法通过反思减少了大模型中的幻觉现象.
上述方法极大程度地减少了 LLM 的幻觉问题, 但遗憾的是, 并没有方法考虑到对话场景中 LLM 的幻觉问题.
基于此, 本文引入多个子任务来降低提升模型对于属性级情感任务的理解能力. 此外, 为了解决 LLM 中固有的幻
觉问题, 本文提出多代理一致性反思方法. 该方法对模型生成结果的一致性进行评估, 当评估不通过时让模型进行
反思, 通过反思让模型生成一致的结果.
2 多代理一致性反思

目前大模型仍然存在难以捕捉对话文本中细粒度的信息的问题 [34] , 这导致 LLM 并不能在大语言模型对话属
性情感理解任务上取得令人满意的性能. 为了解决上述问题, 本文提出了多代理一致性反思方法, 其结构如图 2 所
示, 其中, 一致性感知的奖励表示一致性奖励的构建过程. 因为情感理解任务数据集是中文对话数据, 在目前的开
源社区中 ChatGLM 具有较强的中文理解能力, 因此本文采用 ChatGLM3 (https://github.com/THUDM/ChatGLM3) [23]

354 355 356 357 358 359 360 361 362 363 364