Page 309 - 《软件学报》2025年第10期
P. 309

4706                                                      软件学报  2025  年第  36  卷第  10  期


                    表  2  给出了  4  个算法在  6  个任务中所获得的累计回报的均值和标准偏差. 其结果是在训练                  5  个种子的基础上
                 记录的. 其中均值和标准偏差都经过了归一化处理. 以均值作为最终评判标准, 实验图是根据均值和偏差共同绘
                 制. 表中加粗了任务中表现优异的实验数据. 从平均值的角度, 观察到                    DEME  方法在  6  个任务中的性能, 均优于其
                 他算法. 但从标准偏差的角度观察, 在大部分任务中, DMEM                方法的训练过程的稳定性较好. 在           Antmaze-umaze-
                 diverse  和  Antmaze-large-play  中  DMEM  稳定性比  IQL  算法差. 究其原因是: 在稀疏奖励的情况下, 为了提高
                 DMEM  算法的泛化能力, 而牺牲了训练过程中的一部分稳定性.

                                表 2 DMEM   与  CQL, Diffusion-QL, IQL  离线强化学习算法最终性能对比

                                           CQL           Diffusion-QL        IQL             DMEM
                         任务
                                      平均值    标准偏差      平均值    标准偏差      平均值    标准偏差      平均值     标准偏差
                     Antmaze-umaze    86.651  14.342   68.454   34.62   86.842   3.145   95.705   1.660
                   Antmaze-umaze-diverse  68.454  34.620  52.827  18.112  63.092  1.165  68.729   5.254
                   Antmaze-medium-play  63.314  17.484  –0.73   1.476   68.628   3.861    71.36   2.923
                  Antmaze-medium-diverse  86.842  3.145  22.212  33.041  65.502  10.724   82.97   3.689
                    Antmaze-large-play  30.284  11.591  10.977  11.918  36.217   1.996   44.184   5.361
                   Antmaze-large-diverse  41.137  11.063  3.813  7.446  44.61    6.662   52.385   1.447

                    在  Antmaze 任务的  6  个环境上, 根据以上实验结果, 验证了        DMEM   算法优于传统的离线强化学习算法. 下面
                 进一步研究该方法对重要超参数的敏感性. 价值函数是基于梯度算法更新的权重, 类似起到重要参数的作用, 其学
                 习的方法影响策略网络的学习. 其学习的过程, 类似于调参的过程, 在很多算法中, 重要参数对算法的性能和稳定
                                                                                     Q 值网络的约束, 从而有
                 性都有很大的影响. 在价值函数更新中添加一个惩戒项, 提高                  V  值网络的学习效率, 增加
                 效提高算法的性能.
                    实验对比如图      5  所示, 当  ς = 0.2 时, DMEM  的性能表现最为优异. 相比较而言,      ς  较小时, 取  ς = 0.02, 智能体
                 在训练价值函数的过程中, 由于高维度空间的问题, 使得估计的偏差较大, 学习的                        V  值函数与实际的     Q  值函数之
                 间的差偏大. 导致在策略更新时, 高维度问题仍会影响策略学习的方向, 降低了学习的效率. 对于                           ς  较大的情况, 取
                 ς = 0.5 和  ς = 0.995 时, DMEM  在蚂蚁迷宫的环境中, 价值评估函数几乎没有作用, 严重影响了              DEME  算法的性
                 能. 因此在   ς = 0.2 的情况下, 发现曲线的误差区间显著变窄, 有效验证了适当的               ς  对算法的影响.

                                       =0.02           =0.2          =0.5          =0.995
                                                                4
                       0.20
                       0.15                                     2
                       偏差  0.10                                偏差  0
                       0.05
                         0                                     −2
                      −0.05                                    −4
                            0    0.2  0.4   0.6   0.8  1.0 (×10 ) 6  0  0.2  0.4   0.6   0.8  1.0 (×10 )
                                                                                                   6
                                    (a) Antmaze-umaze                   (b) Antmaze-medium-diverse
                                          图 5 不同动作权重系数的         DMEM  学习曲线图

                    根据表   3  实验结果, 可验证    DMEM  方法在不同的     ς  上, 性能的差异.   ς  过低, 没有惩戒作用, 两个价值网络间
                 存在一定的差异, 高维度的动作空间依旧影响价值函数的学习.                    ς  过高, 过分强调动作维度对价值网络的作用, 导
                 致价值网络无法得到有效学习, 失去了评估的作用, 从而影响策略网络的更新. 由此可见, 适当的                            ς  选择对算法的
                 性能起着重要的作用.
                    为了验证扩散模型对算法性能的影响, 选择了                Antmaze 的  3  个环境进行比较实验. 对比     DMEM  算法引入扩
                 散模型和未使用扩散模型组件算法的性能. 实验结果如图                   6  所示, 以平均奖励为指标, DMEM       算法的结果明显优
   304   305   306   307   308   309   310   311   312   313   314