Page 306 - 《软件学报》2025年第10期

P. 306

刘全等: 扩散模型期望最大化的离线强化学习方法 4703

策略引入扩散模型, 而扩散模型中的关键是去噪的参数. 那么值函数 V(s) 的更新也考虑了去噪参数带来的影响.
得到新的值函数 V(s) 的更新公式为:

[ ] 2
L V (ψ) = E (s,a)∼D ω τ (Q(s,a),V(s)) Q(s,a)−V(s)−ςlog(π(s)) (27)
其中, ς 是一个常数, 控制动作在值函数更新中的影响. 通过 MSE 方法来计算损失函数, 衡量预测值 V(s) 和实际
值 Q(s,a) 之间的误差. 结合期望回归的思想, 重新考虑损失对值函数更新的影响. 然后通过梯度下降的方式进行优化.
在 DMEM 算法中, 由 ϕ 参数化策略网络 π(a | s;ϕ), 在基于策略的强化学习模型下, 引入一个约束项, 用于惩罚
策略去噪训练过程的目标. 定义 DMEM 策略学习的目标函数为:

[ ]
J(π) = E (s,a)∼D exp(δ 1 (Q(s,a)−V(s)) logπ(a | s)+δ 2 L d (ϕ) (28)
其中, Q(s,a) 表示动作值函数, V(s) 表示状态值函数. DMEM 策略是基于策略学习的, 直接评判策略学习的好坏.
通过期望最大化来学习策略, Q(s,a)−V(s) 为优势函数, 作为期望最大化的一种形式. δ 1 为控制优势函数的温度系
数. exp(δ 1 (Q(s,a)−V(s)) 可以看作一个权重, 是策略 π k+1 学习 π k 的权重, 用来衡量策略的好坏. L d (ϕ) 是一个惩戒
项, 用来衡量噪声参数学习的偏差. δ 2 为惩戒项的温度参数, 控制策略学习与噪声误差之间的权重.
考虑简单的一步 MDP 问题, 用似然比计算策略梯度为:

∑ ∑
∇ ϕ J(ϕ) = d(s) π ϕ (a | s)∇ ϕ logπ ϕ (a | s)r (29)
s∈S
其中, r 是一步时间后获得的即时奖赏. 推广到多步 MDP, 只需将即时奖赏 r, 换成长期的期望值, 可以用价值函数
Q(s,a) 兼容近似表示. 但存在梯度方差的问题, 采用基线减少方差的思想, 即平均 Q 值减去均值. 增加比均值更好
的动作的概率, 则策略梯度为:

∑ ∑
∇ ϕ J(ϕ) = d(s) π ϕ (a | s)∇ ϕ logπ ϕ (a | s)[Q(s,a)−V(s)] (30)
s∈S
在稀疏奖励的环境下, IQL 算法基于策略梯度更新策略网络, 且利用 SARSA 方法更新评价网络, 而不是直接
选择最大动作 Q 值. 本文还考虑利用扩散模型的优势, 学习策略网络. 即在不能得到立即奖赏的情况下, 也能通过
邻域的信息, 增强数据的分布. 扩散模型的推导过程, 如第 3.2 节所述. 扩散模型的关键技术是去噪过程, 所以学习
去噪参数 ϕ 是扩散模型的重点. 则 DMEM 算法策略有关噪声的惩戒项可表示为:

[ √ √ ]
L d (ϕ) = E ξ∼N(0,I),(s,a 0 )∼D ||ξ −ξ ϕ ( α t a 0 + 1− ¯α t ξ), s,t)|| 2 (31)
¯
其中, ξ 是扩散前向过程的加噪参数. ξ ∼ N(0,I) 意味着服从一个简单的高斯分布. ξ ϕ 是去噪参数, 将加噪后的数据
√ √
t
信息逐步处理. 而 ¯ α t a 0 + 1− ¯α t ξ 就是时刻加噪后的样本数据. 利用均方误差计算损失函数, 计算出网络预测的
去噪参数与实际值的差距.
ϕ 作为去噪的参数, 也是 DMEM 算法中策略的网络参数. 在扩散模型的逆向过程中, ξ ϕ 是扩散模型学习预测

出的噪声. 而参数 ϕ 在策略 π ϕ (a | s) 中则用来产生动作概率, 两者输出的结果不同, 代表的含义也不同. 但两者之间
可以相互转换, 其转换的公式为:

a 0 = µ+e 0.5σ 2 ξ ϕ (32)
µ 见公式 σ 见公式 (24).
其中, 均值 (25), 方差
DMEM 算法策略的最终目标函数为:

[ √ √ ]
[ ]
L π (ϕ) = E (s,a)∼D exp(δ 1 (Q(s,a)−V(s)) logπ(a | s)+δ 2 E ξ∼N(0,I),(s,a 0 )∼D ||ξ −ξ ϕ ( α t a 0 + 1− ¯α t ξ), s,t)|| 2 (33)
¯
[
]
其中, E (s,a)∼D exp(δ 1 (Q(s,a)−V(s)) logπ(a|s) 通过期望最大化来学习策略, 利用价值函数衡量策略的好坏. E ξ∼N(0,I),(s,a 0 )∼D
√ √
[ ]
||ξ −ξ ϕ ( α t a 0 + 1− ¯α t ξ), s,t)|| 2 则通过均方误差来降低噪声学习的误差. 策略的目标函数通过随机梯度下降的方
¯
式更新学习.
使用具有平滑系数 τ 的指数移动加权平均, 来软更新目标 Q 网络:

(34)
¯ θ i ← τθ i +(1−τ) ¯ θ i

301 302 303 304 305 306 307 308 309 310 311