Page 185 - 《软件学报》2025年第5期
P. 185

杨尚东 等: 基于分组对比学习的序贯感知技能发现                                                        2085



                 的中心   ¯ z k  . 对所有技能重复上述过程, 则最终得到     K  个技能表征中心     (¯z 1 ,¯z 2 ,...,¯z K ) .
                                                                    k
                    用采样阶段的      K  组相似轨迹对应的奖励轨迹均值          ¯ ρ k  , 计算第   、   p 种技能表征的相似度  w k,p  , 来区分技能表
                 征中心   ¯ z k  的正负样本. 将与第  k 种技能表征相似度高的技能表征对应的分组轨迹视作正样本, 使它们与                    ¯ z k  相似; 相
                 似度低的技能表征对应的分组轨迹视作负样本使它们与                   ¯ z k  不同. 另外, 在计算损失时以它们的相似度作为权重. 我
                 们借鉴了文献     [31] 的损失函数, 并对其做出了改进, 使其能够满足上述要求. 损失函数                 L η  如下:

                                                1  ∑ K
                                           
                                           L η =      l η (k)
                                           
                                           
                                               K   k=1
                                           
                                           
                                           
                                           
                                           
                                                 ∑
                                                   K
                                           
                                           l η (k) =  l η (k, p)
                                           
                                           
                                                    p=1                                               (1)
                                           
                                           
                                           
                                           
                                           
                                                                     c m
                                                        ∑
                                                       1   M        e k,p /κ
                                           
                                           
                                           l η               log ∑  ∑
                                            (k, p) = −w k,p
                                                                  K    M
                                                      M    m=1            c m /κ
                                           
                                                                         e k,p
                                                                   u=1  m=1
                            ⊤         ∑ M                       ⊤         1  ∑ M
                            ¯ z z p,m                (  )       ¯ ρ ¯ρ p         m
                            k
                                                                k
                      m
                                                                                                k
                 其中,   c =   
 
  
  ,   ¯ z k =  m=1 z k,m z k,m = e η τ k,m ,w k,p =  
 
  ,   ¯ ρ k =  M  m=1  ρ  . 其中,   ¯ z k  表示第   种技能表
                                              ,
                      k,p
                                                                                 k


                          ∥¯z k ∥
z p,m 
                     ∥¯ρ k ∥
¯ρ p
                                                                              m       m 条分组轨迹对应的轨
                 征的中心,   τ k,m  表示从第   k 种技能轨迹回放缓存   B k  中取出的第  m 条分组轨迹,    ρ  表示上述
                                                                              k
                 迹奖励. 本文认为该优化目标         (1) 是定义  2  中技能发现目标的一种直接近似.

                                                                  技能策略
                                                                                  → - -
                                                   i                →  →         z i =(z i 1  , z i 2 ) 序贯组合
                                                                π θ (a | s, g , z i )
                                  τ 1
                                                                τ 1,1                z 1,1
                                               1
                                              τ 1               τ 1,2
                                                         1                          z 1,2
                                                            …                     …
                          1                                    τ 1, M               z 1, M
                                               2
                                              τ 1                                                   -
                                                                                           均值       z 1
                   采样策略     2    τ 2                           τ 2,1                z 2,1          -
                       →                                                                            z 2
                  π ran (a | s, g )               相似度量   2                                      …
                           …                                    τ 2,2                z 2,2          -
                                  …                         …                     …      对比学习       z K
                                              …
                          I                                 …                     …
                                  τ I                                                         技能表征中心
                                                            …         表征网格 e η    …
                                                         K
                                                                τ K, M
                                                                                     z K, M
                               采样轨迹         分段轨迹          分组轨迹                   技能表征
                                     图 2 GCSSD  中技能嵌入表征与强化学习策略联合训练框架

                 3.2   基于技能表征的强化学习训练
                    强化学习的目标是学习策略来最大化期望回报, 最优策略的学习可以通过基于值函数的算法、基于策略梯度
                 的算法和演员-评论家        (actor-critic, AC) 算法实现. 其中, 基于值函数的算法通过最小化时序差分               (temporal
                                                                                        θ
                 difference, TD) 误差   δ 更新策略网络; 基于策略梯度的强化学习方法将         π θ (a | s) 视作一个关于   的连续可微函数, 通
                 过梯度上升的方法优化参数          θ 来最大化目标函数, 即:

                                                                      
                                                      H  H
                                                     ∑ ∑              
                                                                      
                                                              r t ′  logπ θ (a t | s t )  .
                                                         γ t ′ −t     
                                              L θ = E π θ           
                                                                      
                                                      t=0  t ′ =t
                    本文基于    AC  算法实现序贯感知技能发现, 在任务类型             T i  中技能嵌入表征为    ⃗z i = (z i 1  ,z i 2  ,...,z i N ) , 通过价值函
                 数网络   V φ (s t ,⃗ g,⃗z i ) 最小化  TD  误差, 根据策略梯度优化策略函数  π θ (a t | s t ,⃗ g,⃗z i ) . 在  GCSSD  中, 可以结合在策略  (on-
                 policy) 和离策略  (off-policy) 的强化学习算法与嵌入表征进行联合学习. 为了方便描述, GCSSD             中结合嵌入表征      ⃗z i
                 的在策略算法     PPO, 给出策略优化目标为:

                                                  [   (                      )]
                                           L θ = −E π θ  min l t (θ)A t ,clip(l t (θ),1−ε,1+ε)A t     (2)
                             (       )
                            π θ a t | s t ,⃗ g,⃗z i         H−t+1            (     )   (    )
                 其中,   l t (θ) =  (  )  ,   A t = δ t +(γλ)δ t+1 +...+(γλ)  δ H−1 δ t = r t +γV φ s t+1 ,⃗ g,⃗z i −V φ s t ,⃗ g,⃗z i  ,   λ ∈ [0,1] , 下
                                                                   ,
                           π θ old  a t | s t ,⃗ g,⃗z i
   180   181   182   183   184   185   186   187   188   189   190