Page 301 - 《软件学报》2025年第10期
P. 301

4698                                                      软件学报  2025  年第  36  卷第  10  期


                    扩散模型具有长视野特性, 通过扩散, 结合样本邻域的信息, 生成贴近样本数据分布的数据. Wang                            等人  [32] 提
                 出扩散   Q  学习算法  (diffusion Q-learning, Diffusion QL), 引入扩散量子学习, 提出用扩散模型来执行策略正则化的
                 方法. 在稀疏奖励的环境, 利用扩散模型的特点, 该算法捕捉多模态分布, 具有很强的分布匹配技术. Kang                            等人  [33]
                 提出高效扩散策略算法        (efficient diffusion policies, EDP), 采用动作近似方法. 即从已损坏的动作中构建一个替代
                 动作, 这个替代动作可以轻松地在数据集中生成. 这种方法使得在每个训练步骤中只需要通过噪声预测网络进行
                 一次预测, 从而显著缩短了训练时间, 避免了繁琐的采样过程. Chen                 等人  [34] 提出的从行为候选人中进行选择算法
                 (selecting from behavior candidates, SFBC), 采用了一种生成式的方法, 将学习到的策略解耦为两部分: 表达性生成
                 式行为模型和行动评价模型. 这种解耦避免了学习具有封闭形式表达式的显式参数化策略模型, 进一步避免选择
                 样本外的行动, 提高了计算的效率. 利用扩散的特点, 有效学习数据的分布, 从而解决稀疏奖赏的问题.
                  2   背景知识


                  2.1   马尔可夫决策过程
                    强化学习任务通常使用马尔可夫决策过程来描述, 定义为一个五元组                       M = (S,A,P,R,γ), 其中  S  是有限的状态
                 集,  A 是有限的动作集.    P : S × A×S → [0,1] 是状态转移模型,  R : S × A → R 是即时奖励函数,  γ ∈ [0,1] 为折扣因子.
                                                                                              π
                                                                            (i)  (i)  ′(i)  (i)  N  d (s,a) 是策略
                 在离线强化学习中, 智能体得到一个由行为策略               π β  收集的静态数据集    D = {(s ,a , s ,r )} . 假设
                                                                                       i=1
                                                             (i)
                                                                (i)
                                         (i)
                                            (i)
                                                                         (i)
                                                                            (i)
                                                                    (i)
                                                                  ,
                                                     ,
                                                 π β
                 π  的贴现状态动作分布, 则有       (s ,a ) ∼ d (·,·) s ′(i)  ∼ P(·|s ,a ) r = R(s ,a ). 离线  RL  的目标是找到一个策略
                                                                    ∑  T
                 π : A×S → [0,1]  希望得到最大化的期望累积奖励. 期望回报           G t =   r(s i ,a i )  作为政策优劣的判别指标, 其中
                                                                       i=t+1
                     π             s i ∼ P(· | s i ,a i ). 马尔可夫决策过程中的期望回报有两种价值函数表示法. 定义状态值函数
                       ,
                 s i ∼ d (·) a i ∼ π(· | s i ) 且
                 为在状态   s 处遵循策略    π 所得到的期望回报      V π (s) = E π (G t | S t = S ), 动作值函数为在状态   s 处执行动作  a, 遵循策略
                 π 所得到的期望回报      Q π (s,a) = E π (G t | S t = S,A t = A). 为了提高策略的学习率并减小方差, 将策略的优势函数定义
                   A π (s,a) = Q π (s,a)−V π (s). 但无论使用哪种价值函数学习策略, 都会产生 OOD 行动. 因此有很多方法, 如策略约
                 为
                 束、值函数正则化等来解决          OOD  问题.
                  2.2   期望回归
                    假设期望回归方程为多元线性方程, 模型表达式定义如下:

                                                             T
                                                       E(y i ) = x β+b i                              (1)
                                                             i
                                         ,
                                                                 T
                 其中, 自变量   x i = (x i1, x i2 ,..., x ip ) β 为系数向量,  β = (β 1 ,β 2 ,...,β p ) ,   b i  为误差项. 通常假设  y i  和误差项的同方差性为
                 一个特定分布. 而期望值回归         [35] , 不仅可以模拟   y i  的期望值, 还可以模拟  y i  的整个分布. 可以同时考虑多个自变量
                 与因变量之间的关系, 克服了二元线性因考虑不全面导致模型偏差的问题.
                    期望回归可以定义为:

                                                            n ∑
                                               m ω (y i ) = argmin  W ω (y i )(y i −m ω ) 2           (2)
                                                        m
                                                            i=1
                 其中, 权重定义为:

                                                         
                                                         ω,   if y i > m ω
                                                         
                                                   W ω (y i ) =                                      (3)
                                                         
                                                          1−ω, if y i < m ω
                    其实, 期望值可以看作一个加权平均值, 其权重取决于                 y i , 拟合值和当前的不对称水平      ω ∈ (0,1), 其中  ω = 0.5
                 的值为均方误差方法的结果.
                  2.3   策略学习
                                                               J(π) 最大化.
                    学习一个最优策略的目标, 是使智能体的期望折扣回报

                                                                     
                                                                  ∞
                                                                 ∑   
                                                                     
                                                                    t 
                                                  J(π) = E s∼d π (s) E a∼π(a|s)    γ r t          (4)
                                                                     
                                                                  t=0
   296   297   298   299   300   301   302   303   304   305   306