Page 300 - 《软件学报》2025年第10期
P. 300

刘全 等: 扩散模型期望最大化的离线强化学习方法                                                        4697


                 用效率. 但是基于扩散模型的算法, 采样速度慢, 训练过程需要大量的时间和计算成本, 远没有经典的离线强化学
                 习算法简单高效.
                    综上所述, 本文提出了一种基于扩散模型期望最大化的离线强化学习                         (offline reinforcement learning with
                 diffusion models and expectation maximization, DMEM) 方法. 该方法运用扩散模型改变了学习策略的网络结构, 并
                 利用其预测噪声的参数学习数据分布, 生成目标数据. 再结合期望最大化框架, 通过猜测隐含参数, 极大化对数似
                 然求解模型参数. 同时, 价值函数的更新使用期望回归和                 SARSA  算法, 直接根据数据集选择动作, 而不是强制的
                 选择价值函数最大的动作, 给予策略更多的泛化能力. 此外, 通过在不同随机种子和不同环境下的实验, 结果表明,
                 DMEM  方法具有稳定且高效的性能.
                    本文的贡献主要包括以下          3  个方面.
                    (1) 引入扩散策略网络, 利用该网络来预测去噪参数, 并通过优势函数加权期望最大化的方法来更新策略, 解
                 决样本数据中奖励稀疏的问题, 有效地提高了样本的泛化性能.
                    (2) 从高维的角度提出一种利用期望回归算法更新价值函数的方法. 通过添加一个惩戒项, 缓解了高维度带来
                 样本偏差的问题. 另外从理论上, 证明了动作维度对价值损失函数的影响.
                    (3) 将  DMEM  方法应用于   Antmaze 环境的  6  个基准实验中, 通过与经典的离线强化学习算法对比, 验证了该
                 算法的优越性.
                  1   相关工作

                  1.1   隐式  Q  学习
                    由于深度强化学习存在采样效率低、与环境交互成本高等缺点, 促使了离线强化学习的产生, 且逐渐成为机
                 器学习领域的研究热点. 在离线          RL  中, 策略的学习与评估都使用一个大规模的静态数据集. 因此通常存在分布偏
                 移, 即训练策略和行为策略不一致的问题. IQL            算法不直接学习分布外的动作           (OOD), 用数据集中已知的状态-动
                 作对进行学习, 避免      OOD  带来的  Q  值高估问题和分布偏移问题. 但         IQL  算法也存在一些缺点, 包括样本效率低、
                 过拟合风险高以及收敛速度较慢等. 由于该算法是基于已有的离线数据集进行学习, 如果数据质量不高或者覆盖
                 范围不全面, 可能会影响算法的性能. 此外, 如果训练数据中存在噪声或偏差, IQL                     算法可能会面临过拟合的风险,
                 导致所学到的策略在实际应用中表现不佳.
                    Hong  等人  [23] 提出超越统一抽样算法    (beyond uniform sampling, BUS), 通过密度比加权方法抽样学习策略, 限
                 制策略只选择数据集中“好数据”, 而不是采样学习所有的数据. 这种采样策略被构建为一个即插即用的模块, 解决
                 在数据集倾斜或不平衡的情况下, 离线强化学习难以学习高回报策略的问题. Xu                         等人  [24] 提出稀疏  Q  学习  (sparse
                 Q-learning, SQL) 和指数  Q  学习  (exponential Q-learning, EQL), 为更深入地理解样本内学习范式的工作原理, 将隐
                 式价值正则化应用于策略. 当离线数据集的质量较低时, 稀疏性会过滤掉那些                         Q  值低于阈值的不良行为, 从而提
                 高算法的性能. Garg    等人  [25] 提出极端  Q  学习算法  (extreme Q-learning, XQL), 在最大熵设置中直接估计最优软值
                 函数, 而不需要从策略中采样. 根据极值定理             (EVT) [26] , 利用  Gumbel 分布解决建模  Q  函数估计误差的问题. 本文
                 提出在   IQL  算法优异性能的基础上, 对      V  值函数进行约束, 提高了价值函数评估的准确性和算法的稳定性.
                  1.2   稀疏奖励任务
                    在蚂蚁迷宫环境中, 主要需要解决稀疏奖励的问题. 即在稀疏奖励的环境中, 智能体仅在任务完成或关键事件
                 发生时给出奖励信号. 目前解决这类问题的强化学习方法有两类: 一是利用数据改进智能体的学习, 通过已有数据
                 或者使用外部信息, 从而改变样本利用率和训练速度; 二是改进模型, 提升模型在大状态、大动作空间下处理复杂
                 问题的能力. 利用数据提高智能体学习能力, 一般从奖励重塑                  [27] 、课程学习  [28] 、好奇心驱动  [29] 等角度考虑. 而模
                 型的改进, 比如分层强化学习         [30] , 利用多层次的结构来学习不同层次的策略, 解决了大状态、大动作空间下的复
                 杂问题. 也有基于模型的方法, 通过使用一个预训练的模型来预测交叉口中其他实体的行为, 从而能更准确地预测
                 将来的奖励和行为, 从而缓解稀疏奖励问题             [31] .
   295   296   297   298   299   300   301   302   303   304   305