Page 48 - 《软件学报》2024年第4期
P. 48

1626                                                       软件学报  2024 年第 35 卷第 4 期

         问题上的迁移效果或泛化性能.  该部分研究分别对应第 3.4 节的元强化学习结合其他领域和第 3.5 节的元强化
         学习算法应用,  其中,  第 3.4 节的相关工作多基于第 3.1 节的元策略学习方法和第 3.2 节的强化学习模块元学
         习方法,  与第 3.3 节的元强化学习设定的新问题的结合方面还有待进一步研究.
         3.1   元策略学习方法

             本节总结并介绍强化学习策略的元学习方法.  策略模块是强化学习智能体端到端模型的核心,  因此训练
         元策略的方向最受关注,  其中很多方法也成为其他元强化学习工作的基础.  本节内容按技术路线将现有工作
         分为基于 MAML 的方法、基于记忆和推断的方法、基于对比学习的方法、易泛化策略模型的构建方法这 4
         个方面展开.
         3.1.1    基于 MAML 的方法
             模型无关的元学习算法         [13] 是 Finn 等人提出的一种基于元目标梯度优化的元学习方法,  其能够同时适用于
         监督学习和强化学习.  该算法的目标是训练任务公共的元参数θ,  使新任务上的初始化模型仅用少量数据就
         能实现快速收敛.  这一目标形式化为公式(6).  MAML 采用梯度下降的方式优化参数θ,  其优化过程分为两层:
         1 )  内层在每个任务             T i 上迭代任务参 数 θ i ,   其中典型的迭代方式为单步 梯
                     θ α∇
         度下降,  即 θ′ = −    θ L  i T  ()θ ; 2)  外层基于内层得到的参数θ i 优化公式(6),  若迭代方式为梯度下降优化,  则:
                   i
                                          θ′  θ  β∇ θ∑  i T ∼ p ()T  L θ .
                                                            () ′ = −
                                                            i T
                                                              i
             在强化学习中,  内层的损失函数是策略在任务上的期望累积奖励:
                                                            
                                         L T  () θ = − E  , T θ   R x a t ∑                 (7)
                                                         ( , )
                                                          t
                                                        T
                                                     t      
             内层损失函数的相关工作由强化学习算法完成,  并使用可微优化器以保留从θ i 到θ的梯度计算图;  外层优
         化可使用随机梯度下降(stochastic gradient descent, SGD). MAML 算法用于强化学习中的伪代码如图 7 所示.
                             Algorithm: MAML for Reinforcement learning.
                             Require: p(T): distribution over tasks
                             Require: α, β: step size hyperparameters
                              1: randomly initialize θ
                              2: while not done do
                              3: Sample batch of tasks T i~p(T)
                              4: for all T i do
                              5:            Sample K trajectories D={(x 1,a 1,…,x H)} using θ in T i
                              6: Evaluate  ∇  () θ    using D and  L
                                       θ  i T L       i T
                              7: Compute adapted parameters with gradient descent:  θ′ = θ α∇−  () θ
                                                                  i     θ  i T L
                                                   1 a
                              8: Sample trajectories  D′ = {(x 1 , ,...,x  )}   using  θ′   in T i
                                              i        H       i
                              9: end for
                             10: Update  θ → −  β∇ θ∑  i T ∼ p T ()  i T L  ()θ′   using each  D′   and  L
                                        θ
                                                                       i T
                                                                i
                                                     i
                             11: end while
                                      图 7   强化学习 MAML 算法伪代码       [13]
             MAML 作为一种新的元学习框架,  其衍生出许多改进和扩展工作.  针对 MAML 的高阶求导带来训练不
         稳定、计算开销大的问题,  Finn 等人在 MAML 工作中提出仅使用一阶求导的简化算法 FO-MAML;  Nichol 等
         人提出比 FO-MAML更加泛用的一阶求导算法 Reptile            [35] .  一阶求导算法相比 MAML的计算效率显著提升,  但
         一阶梯度估计不准确的问题从根本上限制了该类算法的性能上限. Antoniou 等人对 MAML 的训练问题给出了
         较广泛的实验和结论        [64] . Song 等人提出的 ES-MAML 算法在外层优化中以进化算法替代求导               [65] ,  该方法避开
         了二阶优化带来的问题,  但网络参数的进化算法也带来较大计算开销.  针对 MAML 应用在强化学习中的计算
         误差, Rothfuss 等人提出的 ProMP 算法实现了更好的信用分配从而减小梯度估计方差                     [66] ; Liu 等人认为 ProMP
         算法引入了额外的计算偏差,  其算法 Taming MAML 能够在外层梯度估计中减小方差而不引入偏差                             [67] .  这些
         工作进一步提升了基于 MAML 的元强化学习算法的鲁棒性.  理论分析方面,  Fallah 等人为非凸环境下的
   43   44   45   46   47   48   49   50   51   52   53