Page 44 - 《软件学报》2024年第4期
P. 44

1622                                                       软件学报  2024 年第 35 卷第 4 期

         2.1   定   义
             在“元强化学习”一词中,  “元(meta)”是前缀词,  “强化学习”是主要部分.  元强化学习领域将强化学习原本
         的单任务框架扩展到元学习的多任务框架,  以期提升强化学习的效果.  与元学习类似,  元强化学习在任务层
         面的流程分为两个阶段:  元训练阶段和元测试阶段.  该两阶段流程如图 2 所示.




















                                         图 2   元强化学习两阶段流程

             其中,  元训练任务和元测试任务中的每个任务 T 对应强化学习的一个环境模型,  该模型通常是 MDP.  元
         训练任务的任务分布 p(T)可能是任务场景中可调节的参数,  如物体大小、重力大小等,  这种参数以连续变量为
         主,  一般使用随机数进行采样;  p(T)也可能基于预设的一系列任务定义,  如机械臂的抓取、开门等任务,  采样
         时随机选取离散的任务.  在元训练开始时,  从任务分布 p(T)中采样一定数量的元训练任务{T train },  即 T train ~
         p(T).  元训练任务集合可能由一次采样固定,  也可能在多轮元训练中反复由采样生成.  在元训练阶段中,  算法
         基于元训练任务进行学习,  为下一阶段训练模型.  与元学习类似,  如果假定元测试任务与元训练任务服从同
         一分布 p(T),  则参数化算法的元强化学习训练目标为公式(5),  其中, J T (θ)为算法在单个决策任务 T 中的强化学
         习目标函数.  在元测试阶段中,  已训练的元知识/参数/模型θ将在元测试任务{T test }上自适应运行,  并得到测试
         效果.  元测试任务的采样分布一般与元训练任务的任务分布 p(T)一致,  即 T test ~p(T),  但元测试任务也可能被
         设定为特定任务.
             现有工作在元测试阶段的评测指标主要分为两种:  零样本(zero-shot)适应性能和小样本(few-shot)适应性
         能.  零样本适应性能用于评价元训练模型在元测试任务上的决策能力,  常用指标为元训练模型在元训练任务
         上的采样步数-累积奖励曲线和在元测试任务上的平均累积奖励.  小样本适应性能用于评价元训练模型在元
         测试任务上的快速学习能力,  常用指标为元训练模型在元测试任务上的训练累积奖励曲线,  其横坐标轴多表
         示采样步数或训练轮数.  评测指标的选择主要和应用场景、算法设计目标相关,  例如: MAML 算法的目标是利
         用少量样本适应新任务,  因此, MAML 适用小样本适应性能进行评价,  而零样本适应性能无法反映其优势.  此
         外,  为进一步验证元强化学习方法的效果,  相关工作往往附加策略典型决策、编码特征分布或改进模块性能
         等更细节内容的可视化与分析.
             与元强 化学习 类似,  迁 移强 化学习(transfer reinforcement learning)  [10] 、 多任务 强化 学习(multi-task
         reinforcement learning) [44]  、 连续 强化 学习 (continurous  reinforcement learning) [45] 、结 合域 适应 (domain
         adaptation)、域泛化(domain generalization)的强化学习等领域都面向多个任务.  迁移强化学习将源任务上的学
         习经验迁移到目标任务中,  从而促进在目标任务下的学习;  在迁移强化学习中,  源任务和目标任务同时可见,
         且通常不关注源任务的数量问题.  多任务强化学习则面向在多个任务上同时学习的需求,  其源任务和目标任
         务为给定的同一任务集.  连续强化学习也称为终身强化学习(lifelong reinforcement learning),  其面向目标任务
         持续到来的场景,  一般无法同时采样多个任务进行训练,  并往往针对任务分布漂移、知识灾难性遗忘等问题
   39   40   41   42   43   44   45   46   47   48   49