Page 300 - 《软件学报》2025年第10期
P. 300
刘全 等: 扩散模型期望最大化的离线强化学习方法 4697
用效率. 但是基于扩散模型的算法, 采样速度慢, 训练过程需要大量的时间和计算成本, 远没有经典的离线强化学
习算法简单高效.
综上所述, 本文提出了一种基于扩散模型期望最大化的离线强化学习 (offline reinforcement learning with
diffusion models and expectation maximization, DMEM) 方法. 该方法运用扩散模型改变了学习策略的网络结构, 并
利用其预测噪声的参数学习数据分布, 生成目标数据. 再结合期望最大化框架, 通过猜测隐含参数, 极大化对数似
然求解模型参数. 同时, 价值函数的更新使用期望回归和 SARSA 算法, 直接根据数据集选择动作, 而不是强制的
选择价值函数最大的动作, 给予策略更多的泛化能力. 此外, 通过在不同随机种子和不同环境下的实验, 结果表明,
DMEM 方法具有稳定且高效的性能.
本文的贡献主要包括以下 3 个方面.
(1) 引入扩散策略网络, 利用该网络来预测去噪参数, 并通过优势函数加权期望最大化的方法来更新策略, 解
决样本数据中奖励稀疏的问题, 有效地提高了样本的泛化性能.
(2) 从高维的角度提出一种利用期望回归算法更新价值函数的方法. 通过添加一个惩戒项, 缓解了高维度带来
样本偏差的问题. 另外从理论上, 证明了动作维度对价值损失函数的影响.
(3) 将 DMEM 方法应用于 Antmaze 环境的 6 个基准实验中, 通过与经典的离线强化学习算法对比, 验证了该
算法的优越性.
1 相关工作
1.1 隐式 Q 学习
由于深度强化学习存在采样效率低、与环境交互成本高等缺点, 促使了离线强化学习的产生, 且逐渐成为机
器学习领域的研究热点. 在离线 RL 中, 策略的学习与评估都使用一个大规模的静态数据集. 因此通常存在分布偏
移, 即训练策略和行为策略不一致的问题. IQL 算法不直接学习分布外的动作 (OOD), 用数据集中已知的状态-动
作对进行学习, 避免 OOD 带来的 Q 值高估问题和分布偏移问题. 但 IQL 算法也存在一些缺点, 包括样本效率低、
过拟合风险高以及收敛速度较慢等. 由于该算法是基于已有的离线数据集进行学习, 如果数据质量不高或者覆盖
范围不全面, 可能会影响算法的性能. 此外, 如果训练数据中存在噪声或偏差, IQL 算法可能会面临过拟合的风险,
导致所学到的策略在实际应用中表现不佳.
Hong 等人 [23] 提出超越统一抽样算法 (beyond uniform sampling, BUS), 通过密度比加权方法抽样学习策略, 限
制策略只选择数据集中“好数据”, 而不是采样学习所有的数据. 这种采样策略被构建为一个即插即用的模块, 解决
在数据集倾斜或不平衡的情况下, 离线强化学习难以学习高回报策略的问题. Xu 等人 [24] 提出稀疏 Q 学习 (sparse
Q-learning, SQL) 和指数 Q 学习 (exponential Q-learning, EQL), 为更深入地理解样本内学习范式的工作原理, 将隐
式价值正则化应用于策略. 当离线数据集的质量较低时, 稀疏性会过滤掉那些 Q 值低于阈值的不良行为, 从而提
高算法的性能. Garg 等人 [25] 提出极端 Q 学习算法 (extreme Q-learning, XQL), 在最大熵设置中直接估计最优软值
函数, 而不需要从策略中采样. 根据极值定理 (EVT) [26] , 利用 Gumbel 分布解决建模 Q 函数估计误差的问题. 本文
提出在 IQL 算法优异性能的基础上, 对 V 值函数进行约束, 提高了价值函数评估的准确性和算法的稳定性.
1.2 稀疏奖励任务
在蚂蚁迷宫环境中, 主要需要解决稀疏奖励的问题. 即在稀疏奖励的环境中, 智能体仅在任务完成或关键事件
发生时给出奖励信号. 目前解决这类问题的强化学习方法有两类: 一是利用数据改进智能体的学习, 通过已有数据
或者使用外部信息, 从而改变样本利用率和训练速度; 二是改进模型, 提升模型在大状态、大动作空间下处理复杂
问题的能力. 利用数据提高智能体学习能力, 一般从奖励重塑 [27] 、课程学习 [28] 、好奇心驱动 [29] 等角度考虑. 而模
型的改进, 比如分层强化学习 [30] , 利用多层次的结构来学习不同层次的策略, 解决了大状态、大动作空间下的复
杂问题. 也有基于模型的方法, 通过使用一个预训练的模型来预测交叉口中其他实体的行为, 从而能更准确地预测
将来的奖励和行为, 从而缓解稀疏奖励问题 [31] .

