Page 308 - 《软件学报》2025年第10期

P. 308

刘全等: 扩散模型期望最大化的离线强化学习方法 4705

目标位置都随机选择. 则蚂蚁迷宫有 6 个子环境. 其行动空间维度为 8, 意味着铰链关节有 8 个, 而动作代表在
关节处的转矩, 大小在−1 到 1 之间. 在不考虑外部接触力的情况下, 空间维度是 27. 智能体使用不同部位铰链,
采取不同的动作. 在空间维度上相比于 Maze2D 多了 8 个自由度, 将二维平面空间上升到三维, 使得任务更加
复杂.
4.2 实验设置
所有算法的每个任务, 都选取了 5 个不同的随机种子, 且都独立运行. 每个任务每次实验都要运行 100 万步,
每 5 万步评估 100 步作为估计值. 实验图中的实线是算法 5 次独立训练的平均性能结果. 实线周围的阴影则是训
练的误差范围. 阴影的范围则代表算法训练的稳定性, 范围越大稳定性越差.
DMEM 算法包含扩散策略网络和评论家网络. 扩散策略中包含加噪过程和去噪过程, 其中加噪过程不涉及网
络参数. 去噪过程中有 4 层线性神经网络, 均采用 Mish 函数作为激活函数. 其中需要将时间编码到神经网络中, 使
用正弦时间戳嵌入块 SinusoidalPosEmb 函数保留当前时间信息, 再经过两层线性神经网络, 一次 Mish 函数激活.
评论家网络包含 3 层隐藏的线性神经网络, 均采用 ReLU 作为激活函数. 策略网络和评论家网络都使用 Adam 作
为优化器, 以梯度下降的方式更新网络参数. DMEM 算法的其他超参数设置, 如表 1 所示.

表 1 DMEM 超参数设置

超参数取值参数描述超参数取值参数描述
D 5 000 经验池大小 κ s 1E–4 时间步截断参数下线
δ 1 10 价值函数权重 κ e 2E–2 时间步截断参数上线
δ 2 10 去噪误差权重 l 3E–4 学习率
n t 5 扩散模型时间步个数 τ 5E–3 目标平滑系数
ς 0.2 更新值函数V(s)的动作权重 ω 0.7 期望回归权重

4.3 实验结果与分析
将本文所提出的 DMEM 算法, 与其他离线强化学习算法 CQL 和 IQL 进行性能对比, 同时与基于扩散策略的
Diffusion-QL 算法进行性能对比. 其学习曲线如图 4 所示. 在任务 Antmaze-medium-diverse 和 Antmaze-large 的两
个环境中, DMEM 算法的表现明显优于 CQL、IQL 和 Diffusion-QL. 在其他任务中, 性能提高效果虽不甚明显, 但
仍优于其他算法. 在大多任务中, DMEM 算法的阴影部分都比 IQL 算法的面积大, 究其原因是扩散模型选择的时
间步偏小. 尽管影响了策略的去噪效果, 但节省了训练的时间成本.

CQL Diffusion-QL IQL DMEM
80 40
平均奖励 60 平均奖励 60 平均奖励
40
40
20 20 20
0 0 0
6
6
6
0 0.2 0.4 0.6 0.8 1.0 (×10 ) 0 0.2 0.4 0.6 0.8 1.0 (×10 ) 0 0.2 0.4 0.6 0.8 1.0 (×10 )
(a) Antmaze-umaze (b) Antmaze-medium-play (c) Antmaze-large-play
80 80 40
平均奖励 60 平均奖励 60 平均奖励 20
40
40
20 20
0 0 0
6
6
0 0.2 0.4 0.6 0.8 1.0 (×10 ) 6 0 0.2 0.4 0.6 0.8 1.0 (×10 ) 0 0.2 0.4 0.6 0.8 1.0 (×10 )
(d) Antmaze-umaze-diverse (e) Antmaze-medium-diverse (f) Antmaze-large-diverse
图 4 DMEM 和其他离线强化学习算法学习曲线图

303 304 305 306 307 308 309 310 311 312 313