Page 43 - 《软件学报》2024年第4期
P. 43

陈奕宇  等:  元强化学习研究综述                                                               1621


         习,  评论家模块为演员策略提供参考.  经验表明,  该方法可显著提升策略训练效果.  基于策略梯度的常用算法
         均为演员 -评论家架构,  该类算法在连续动作环境中表现更好,  包括深度确定性策略梯度算法(deep
         deterministic policy gradient, DDPG) [27] 、近端策略优化算法(proximal policy optimization, PPO) [28] 、柔性演员-
         评论家算法(soft actor-critic, SAC) [29] 、双延迟深度确定性策略梯度(twin-delayed deep deterministic  policy
         gradient, TD3) [30] 等.
         1.2   元学习
             元学习领域旨在解决传统神经网络模型泛化性能不足以及对新任务适应性较差的问题,  然而学术界对元
         学习的定义并不统一.  一些研究认为,  元学习的目标是学习一种通用的知识 w,  元学习器(meta-learner)利用知
         识 w 针对任务生成基学习器(base learner),  使其能很好地泛化到新任务              [13,14,31] ;  另一些研究则将元学习视为机
         器学习的一种范式,  给定任务分布 p(T),  要求算法优化在新任务上的训练效果                       [32−34] .  我们认为,  后者的定义
         更为合理,  其中有两个原因.
             (1)  后者研究边界相对清晰.  前者的研究边界难以界定,  因为很多方法不显式提取通用知识 w,  同时,
                 很多方法中元学习器与基学习器没有明确界限;  而与迁移学习、多任务学习、域泛化等概念相比,  后
                 者的设定和优化目标有明显不同;
             (2)  后者范畴包含前者.  若算法能够利用已有任务的训练提升在新任务上的效果,  表明算法内已经存在
                 可迁移的知识.
             因此,  下文中将更多地基于后者理解进行介绍.
             任务(task)是元学习的主要概念之一.  任务的定义比较宽泛,  可以是分类、图像分割、强化学习 MDP 等等.
         在元学习的框架中存在两组任务:  元训练任务(meta-training task)和元测试任务(meta-testing task).  算法首先
         基于元训练任务进行学习,  然后在元测试任务中测试效果.  元训练任务以任务分布 p(T)的形式给出:  在元训
         练开始时,  从任务分布 p(T)中采样一定数量的元训练任务{T train },  即 T train ~p(T).  在元训练过程中,  元测试任务
         是未知的,  因此理论上元学习的训练目标与评测准则随目标场景不同而不同.  在相关研究中                               [16] ,  一般假定元
         测试任务与元训练任务服从同一分布 p(T),  由此可确定参数化算法的元训练目标为
                                             J(θ)=E T~p(T) J T (θ)                            (5)
         其中,  θ为元学习算法参数,  J T (θ)为算法在单任务 T 中的目标函数.  上式中的期望 E T~p(T) 可通过任务采样近似,
         从而使参数优化可实际计算并实现.
             元学习算法类型繁多,  本文按实现思路主要分为基于优化、基于先验和基于度量这 3 类                            [14] . 3 类方法切入
         角度不同,  并可以相互融合.
             基于优化的方法主要源自模型无关的元学习算法(MAML)                    [13] ,  该工作针对元学习提出了新的优化目标,
         希望找到一个初始化参数θ能快速、有效地适应给定任务分布.  关于参数θ的损失函数 L(θ)为
                                             L(θ)=E T~p(T) L T (θ′)                           (6)
         其中,  θ′=θ−α∇ θ L T (θ)是在任务 T 上经过单步梯度下降更新的参数.  该类方法目前是元学习领域的热点话题,
         已有许多基于 MAML 的改进工作,  如一阶优化算法 Reptile             [35] 、近似概率推理元学习算法 VERSA        [36] 等.
             基于先验的方法针对特定领域的任务先验特征设计算法模型,  包括基于同质任务设计跨任务记忆模块的
         方法  [37,38] 、设计超网络的方法   [39,40] 等.
             基于度量的方法将新任务与已有任务做距离度量,  从而一定程度上将问题转化为单对单的度量与迁
         移 [41−43] .  该类方法有两个共同要素: (1)  样本特征提取,  归纳用于度量的特征; (2)  距离度量方法,  用于发现最
         相似的有标签样本.
         2    元强化学习研究概述

             本节总体概述元强化学习研究,  包含元强化学习研究的定义范围和场景设置两部分,  为第 3 节元强化学
         习研究进展的展开作铺垫.
   38   39   40   41   42   43   44   45   46   47   48