Page 53 - 《软件学报》2024年第4期
P. 53

陈奕宇  等:  元强化学习研究综述                                                               1631


         享层和任务特有层,  其中,  任务特有层仅为一层神经网络,  并进一步设计适配器模型输出任务特有层参数以
         替代传统的梯度下降更新.  该工作采用多任务目标训练,  并在 MuJoCo 环境中取得了超越 PEARL,  MAML 和
         MQL 的效果   [100] .  本文认为,  该工作的策略模型设计之所以有效,  其原因可能类似第 3.1.3 节所述的 Raghu 等
         人 [91] 和 Kao 等人 [92] 关于 MAML算法的发现. Chua等人提出了一种具有理论保证的层次化元强化学习过程                     [101] .
             总的来说,  根据任务特性设计易泛化的功能模块并迁移是非常实用的思路,  其中以分层策略架构最为常
         用.  表 5 总结了上述算法的技术特点和源码链接.
                                    表 5   易泛化元策略模型的构建算法小结
                     算法名称                   技术特点                          源码
                     H-DRLN [94]    分层策略+知识蒸馏+选择迁移              https://github.com/tesslerc/H-DRLN
                    JueWu-MC [58]    分层策略+表征学习+自模仿学习                       −
                     MGHRL [95]    分层策略+机械臂模拟环境+PEARL                      −
                     ULTRA [96]    分层策略+导航模拟环境+课程迁移学习                      −
                      ASC [97]    分层策略+复杂导航模拟环境+原子技能学习                     −
                    HEMetaDRL [98]    分层策略+可微分神经字典记忆                       −
                      MSGI [99]    提出子任务图推理的分层任务问题                https://github.com/srsohn/msgi
                      FLAP [100]    将策略模型分为任务共享层和任务特有层                     −
                    Chua 等人 [101]    具有理论保证的层次化元强化学习                       −

         3.2   强化学习模块元学习方法
             强化学习框架中,  在策略模型外还有一系列可学习内容,  如探索策略、优化目标、环境动态(environment
         dynamics)模型、超参数等,  它们对智能体的性能表现同样有着重要影响.  以下本节按模块类别展开介绍研究
         进展.
         3.2.1    探索策略元学习方法
             在强化学习中如何平衡探索和利用这一难题始终未有定论.  在与环境的序贯交互中,  智能体一方面需要
         利用已有信息选择最优动作,  以期提升累积回报奖励;  另一方面智能体也需要探索环境,  只有获取充分信息
         才能提升信息利用的效果.  在传统强化学习方法中,  “利用”一般体现在强化学习智能体的最优决策过程,  “探
         索”则一般对应非最优的决策噪声或目标函数                [102] .
             现有工作的观点是:  虽然强化学习难以在传统的单一任务中学习探索与利用的平衡,  但容易将一些共通
         的探索策略在多个任务间迁移复用.  当迁移的探索策略能广泛地适用于不同任务时,  就可称其为元探索策略,
         此时,  策略即代表探索相关的元知识.  Stadie 等人           [103] 将智能体与环境的交互过程分为探索和利用两个阶段,
         在探索阶段中希望策略尽可能地探索任务信息,  其目标是使策略在利用阶段中的训练效果更好.  在上述两阶
         段设定下,  强化学习的目标函数梯度可作如下分解                 [103] :
                ∂   R ()τ π  ()τ πτ       R ()τ πτ  ∂  π  ()τ + π  ()τ  ∂  πτ  
                                             
                                                ( )
                                                                         ( ) d dτ τ
                                ( )d dτ τ =
                ∂  θ    U (, )θτ  θ     ∫∫    ∫∫    θ  ∂  θ  U (, )θτ  U  (, )θτ  ∂  θ  θ    
                                                                                             (12)
                                        1  T  R ()τ≈  i ∂  logπ  ()τ  i  1 ∑  T  R ()τ+ ∑  i ∂  logπ  ( )τ  i
                                        T  i= 1  ∂  θ  U (, )θτ  T  i= 1  ∂  θ  θ  τ  i  π ∼  U (, )θτ
                                                                                 τ  i  π ∼  θ
         其中, π θ 是探索策略,  U  (, )θτ 是基于参数θ使用π θ 探索得到的轨迹τ 更新后的参数, R(τ)是轨迹τ的回报.
             经过上述分解后,  目标函数梯度最终被分解为一个与 MAML 更新方式相同的项和一个探索提升最终回
         报的项.  Stadie 等人由此提出了 E-MAML 算法,  该算法能从多轮轨迹中自动学习探索策略如何优化更新后的
                                                     2
                                                                         2
         利用策略.  该工作同时利用其思想的简化版本改进 RL 工作                  [51] ,  并提出了 E-RL 算法.
             Gurumurthy 等人认为  [104] ,  更新前(探索)策略和更新后(利用)策略往往大相径庭,  这导致类似 MAML 使用
         少量梯度更新来适应任务的方法效果不理想.  与 E-MAML 使用同一策略分别进行探索与利用不同,  他们提出
         明确建模一个单独的探索策略,  以使探索策略更加灵活,  更容易适应任务.  他们提出了一种监督学习的探索
   48   49   50   51   52   53   54   55   56   57   58