Page 310 - 《软件学报》2025年第10期
P. 310

刘全 等: 扩散模型期望最大化的离线强化学习方法                                                        4707


                 于未引入扩散模型的算法, 可见扩散模型有效地提高了算法的性能. 在训练的                        20  万步前, DMEM  算法性能提升明
                 显快于未引入扩散模型的算法, 由此可见扩散模型还能提高算法的收敛性, 加快模型的学习效率.

                                         表 3 不同动作权重系数的         DMEM  算法最终性能

                                  任务             ς = 0.02     ς = 0.2     ς = 0.5     ς = 0.995
                              Antmaze-umaze       90.870      95.705      86.149       50.572
                            Antmaze-umaze-diverse  65.624     68.729      60.527       34.173
                            Antmaze-large-diverse  48.447     52.385      43.711       19.481


                                                   DMEM      DMEM w/o diffusion

                       80                         80                         40
                      平均奖励  60                   平均奖励  60                   平均奖励
                       40
                                                  40
                       20                         20                         20
                        0                          0                          0
                                                                                                    6
                          0  0.2 0.4 0.6 0.8 1.0 (×10 )  0  0.2 0.4 0.6 0.8 1.0 (×10 )  0  0.2 0.4 0.6 0.8 1.0 (×10 )
                                              6
                                                                         6
                          (a) Antmaze-umaze-diverse  (b) Antmaze-medium-diverse  (c) Antmaze-large-play
                                    图 6 DMEM   和没有扩散模型的      DMEM  的算法对比学习曲线图

                    为了验证在     V  值网络更新中添加动作惩戒项对算法性能的影响, 选择了                  Antmaze 的  3  个环境进行比较实验.
                 对比  DMEM  算法和未引入惩戒项组件的          DMEM   算法的性能. 实验结果如图        7  所示, 以平均奖励为指标, 相比于
                 未引入惩戒项的      DMEM   算法, DMEM   算法结果更优, 可见惩戒项提高了策略的学习效果. 在消融实验环境中,
                 DMEM  算法的阴影面积比       DMEM 未引入惩戒项的小, 由此可知动作惩戒项还能提高算法的稳定性.

                                                   DMEM      DMEM w/o penalty

                       80                         80                         40
                      平均奖励  60                   平均奖励  60                   平均奖励

                                                  40
                       40
                       20                         20                         20
                        0                          0                          0
                                                                                                    6
                                                                         6
                                              6
                          0  0.2 0.4 0.6 0.8 1.0 (×10 )  0  0.2 0.4 0.6 0.8 1.0 (×10 )  0  0.2 0.4 0.6 0.8 1.0 (×10 )
                          (a) Antmaze-umaze-diverse  (b) Antmaze-medium-diverse  (c) Antmaze-large-play
                                   图 7 DMEM   和没有动作惩戒项的       DMEM  的算法对比学习曲线图

                  5   总 结
                    本文提出了一种扩散模型期望最大化的离线强化学习算法                     DMEM. 通过去噪参数, 结合数据邻域信息, 生成
                 数据样本, 增强了策略的泛化能力和选择的多样性. 同时使用期望回归和                      SARSA  方法更新价值函数, 期望回归将
                 二维价值拓展到高维空间, 有效减少了预测的误差, 提高了策略的学习效率. 实验选取蚂蚁迷宫环境中                               6  个经典的
                 稀疏奖励任务, 验证了算法的性能. 实验结果表明, 本文所提出的算法具有一定的优势. 在复杂离散的稀疏奖励环
                 境下, 期望最大化方法和扩散模型使得泛化性能大幅提高.
                    从算法的性能和成本角度考虑, 未来的研究方向可能是利用轨迹来实现扩散和分层强化学习. 这意味着通过
                 分层设计适当的子目标, 以减少扩散策略学习的次数. 虽然这可能会增加单次扩散加噪和去噪的计算成本, 但整体
                 减少扩散策略学习的次数, 从而节约了计算成本. 从性能角度来看, 通过轨迹扩散学习, 可以加强当前节点和未来
                 节点之间的联系. 在狭窄数据集的机械臂环境中, 延长扩散的视野距离, 增强未来结果对当前决策的影响, 从而提
                 高智能体的学习和预测能力.
   305   306   307   308   309   310   311   312   313   314   315