Page 307 - 《软件学报》2025年第10期

P. 307

4704 软件学报 2025 年第 36 卷第 10 期

其中, τ 的大小会影响训练的稳定性, τ 太小更新缓慢, 导致训练速度大大降低.
DMEM 具体步骤如算法 2 所示.

算法 2. DMEM 算法.
N
输入: 离线数据集 D, 采样数量 , 平滑系数 τ;
′ ′
1. 初始化: 策略网络 π(· | ·;ϕ), 评论 V 网络 V ψ , 评论 Q 网络 Q θ 1 和 Q θ 2 , 目标评论 Q 网络 Q(· | ·;θ ) and Q(· | ·;θ )
1 2
2. for 每步迭代 do
′
3. 从数据集 D 采样 N 对 (s,a,r, s ) 样本
4. 从策略 π(· | s) 中采样动作 a 0
V 网络, 见公式 (27)
5. 更新
6. 更新 Q 网络, 见公式 (6)
7. for 每步迭代 do
8. 更新策略网络, 见公式 (33)
9. end for
10. 更新目标网络, 见公式 (34)
11. end for
在 DMEM 中, 输入全局经验池、随机小批量采样样本个数以及平滑系数. 第 1 行初始化策略网络、评估网络
和目标网络. 算法 2 第 3, 4 行, 随机采样 N 组样本, 在 ϕ 参数化下的策略选择动作. 第 5, 6 行, 是评估网络参数的更
新. Q 函数网络参数的更新不涉及数据集外的动作, 但 V 值网络参数的更新, 涉及策略选择的动作. 见算法 2 第
8 行, 通过梯度下降的方式更新策略, 策略参数的更新基于策略梯度方法. 值函数作为策略更新的权重, 同时引入
扩散模型预测噪声的误差. 最后软更新目标网络的参数, 见算法 2 第 10 行.
4 实验分析

4.1 实验环境
D4RL [36] 数据集种类丰富, 包括 Gym-Mujoco、Antmaze、Adroit 等. 其中 MuJoCo 是经典连续控制任务的平
台. Antmaze 环境主要是面向稀疏奖励、无向和多任务数据问题的平台. 且数据是通过随机选择目标位置, 然后使
用计划器生成航点序列来生成的. Antmaze 是一个导航任务, 其目标是训练一个四足智能体, 试图找到起点与目标
点的最短路径. 根据路径的复杂度可以分为: umaze、medium、large 这 3 种, 如图 3 所示.

(a) Antmaze-umaze-diverse (b) Antmaze-medium-diverse (c) Antmaze-large-diverse
图 3 蚂蚁迷宫环境

在路径长度确定的情况下, 根据重置位置和目标位置的随机性, 可分为 3 类: 固定的重置位置和目标位置、
play、diverse. 其中 play 是指蚂蚁的重置位置固定, 但是选择的目标随机. Diverse 是指蚂蚁选择的重置位置和

302 303 304 305 306 307 308 309 310 311 312