Page 304 - 《软件学报》2025年第10期
P. 304

刘全 等: 扩散模型期望最大化的离线强化学习方法                                                        4701


                                                              √
                                                 q(x t | x t−1 ) = N(x t ;  1−β t x t−1 ,β t I       (16)
                                                                   t
                 其中,   β t  是高斯分布的超参数. 引入一个随机变量        ξ ∼ N(0,I), 样本   时刻   x t  和   t −1 时刻  x t−1  可以表示为:

                                                       √      √
                                                   x t =  α t x t−1 +  1−α t ξ t−1                   (17)
                 其中,  α t = 1−β t . 由于独立高斯分布的可加性,   x t  可直接由   x 0  和  α  表示:

                                                        √     √
                                                     x t =  ¯ α t x 0 +  1− ¯α t ξ                   (18)
                                                                                √
                 其中,   ¯ α t = α t α t−1 ...α 1 . 而超参数  β 是随着  T  时刻变大而递增的,  α 则随着时间递减.  α t  是为保证  x T  最后收敛到方
                 差为  1  的标准高斯分布.
















                                                图 2 Maze 环境下轨迹去噪过程

                    加噪声是为了配置一个数据, 而扩散模型的关键是, 学习从中去掉噪声. 由于                       q(x t−1 | x t ) 的数据分布是未知的,
                 只能借助一个已知的线性模型           p ϕ (x t−1 | x t ) 去近似  q(x t−1 | x t ). 可定义为:

                                                 p ϕ (x t−1 | x t ) = N(x t−1 ;µ ϕ (x t ,t),β t )    (19)
                    这里方差直接是      β t , 是因为方差不需要网络去估计. 在理论上计算均值和方差需要用到贝叶斯公式:

                                                     P(AB) = P(A)P(B | A)                            (20)
                    则在已知    x 0  和  x t  的情况下, 可推导出:

                                                                   q(x t−1 | x 0 )
                                              q(x t−1 | x t , x 0 ) = q(x t | x t−1 , x 0 )          (21)
                                                                    q(x t | x 0 )
                    将正态分布概率密度函数定义:

                                                            1  −0.5( σ )
                                                                  x−µ 2
                                                     ρ(x) = √  e                                     (22)
                                                           2πσ
                    代入公式    (21), 得到如下公式:

                                                         ( √      √
                                     (   ((         )                   )     ))
                                                1                   ¯
                                           α t            2 α t  2 α t−1
                                                                                          2
                       q(x t−1 | x t , x 0 ) = exp −0.5  +  x 2  −  x t +  x 0 x t−1 +C  = exp(−0.5(ax +bx+c))  (23)
                                                     t−1
                                           β t  1− ¯α t−1  β     1− ¯α t−1
                                       ( √      √     )
                              1                   ¯              1
                        α t             2 α t  2 α t−1
                 其中,  a =  +     ,  b = −   x t +   x 0 . 则方差   ˜ β t =   可转化为:
                                         β                       a
                        β t  1− ¯α t−1         1− ¯α t−1
                                                           1− ¯α t−1
                                                        ˜ β t =                                      (24)
                                                                β t
                                                           1− ¯α t
                                  b
                    均值   ˜ µ t (x t , x 0 ) = −   可转化为:
                                  2a
                                     √            √        √             √
                                      α t (1− ¯α t−1 )  ¯ α t−1 β t  α t (1− ¯α t−1 )  ¯ α t−1 β t  (  √  )
                             ˜ µ t (x t , x 0 ) =  x t +  x 0 =      x t + √     x t −  1− ¯α t−1 ξ t
                                       1− ¯α t    1− ¯α t     1− ¯α t    ¯ α t (1− ¯α t )
                                        (          )
                                      1      1−α t
                                   = √   x t − √  ξ t                                                (25)
                                      ¯ α t  1− ¯α t
   299   300   301   302   303   304   305   306   307   308   309