Page 304 - 《软件学报》2025年第10期

P. 304

刘全等: 扩散模型期望最大化的离线强化学习方法 4701

√
q(x t | x t−1 ) = N(x t ; 1−β t x t−1 ,β t I (16)
t
其中, β t 是高斯分布的超参数. 引入一个随机变量 ξ ∼ N(0,I), 样本时刻 x t 和 t −1 时刻 x t−1 可以表示为:

√ √
x t = α t x t−1 + 1−α t ξ t−1 (17)
其中, α t = 1−β t . 由于独立高斯分布的可加性, x t 可直接由 x 0 和 α 表示:

√ √
x t = ¯ α t x 0 + 1− ¯α t ξ (18)
√
其中, ¯ α t = α t α t−1 ...α 1 . 而超参数 β 是随着 T 时刻变大而递增的, α 则随着时间递减. α t 是为保证 x T 最后收敛到方
差为 1 的标准高斯分布.

图 2 Maze 环境下轨迹去噪过程

加噪声是为了配置一个数据, 而扩散模型的关键是, 学习从中去掉噪声. 由于 q(x t−1 | x t ) 的数据分布是未知的,
只能借助一个已知的线性模型 p ϕ (x t−1 | x t ) 去近似 q(x t−1 | x t ). 可定义为:

p ϕ (x t−1 | x t ) = N(x t−1 ;µ ϕ (x t ,t),β t ) (19)
这里方差直接是 β t , 是因为方差不需要网络去估计. 在理论上计算均值和方差需要用到贝叶斯公式:

P(AB) = P(A)P(B | A) (20)
则在已知 x 0 和 x t 的情况下, 可推导出:

q(x t−1 | x 0 )
q(x t−1 | x t , x 0 ) = q(x t | x t−1 , x 0 ) (21)
q(x t | x 0 )
将正态分布概率密度函数定义:

1 −0.5( σ )
x−µ 2
ρ(x) = √ e (22)
2πσ
代入公式 (21), 得到如下公式:

( √ √
( (( ) ) ))
1 ¯
α t 2 α t 2 α t−1
2
q(x t−1 | x t , x 0 ) = exp −0.5 + x 2 − x t + x 0 x t−1 +C = exp(−0.5(ax +bx+c)) (23)
t−1
β t 1− ¯α t−1 β 1− ¯α t−1
( √ √ )
1 ¯ 1
α t 2 α t 2 α t−1
其中, a = + , b = − x t + x 0 . 则方差 ˜ β t = 可转化为:
β a
β t 1− ¯α t−1 1− ¯α t−1
1− ¯α t−1
˜ β t = (24)
β t
1− ¯α t
b
均值 ˜ µ t (x t , x 0 ) = − 可转化为:
2a
√ √ √ √
α t (1− ¯α t−1 ) ¯ α t−1 β t α t (1− ¯α t−1 ) ¯ α t−1 β t ( √ )
˜ µ t (x t , x 0 ) = x t + x 0 = x t + √ x t − 1− ¯α t−1 ξ t
1− ¯α t 1− ¯α t 1− ¯α t ¯ α t (1− ¯α t )
( )
1 1−α t
= √ x t − √ ξ t (25)
¯ α t 1− ¯α t

299 300 301 302 303 304 305 306 307 308 309