Page 44 - 《软件学报》2024年第4期
P. 44
1622 软件学报 2024 年第 35 卷第 4 期
2.1 定 义
在“元强化学习”一词中, “元(meta)”是前缀词, “强化学习”是主要部分. 元强化学习领域将强化学习原本
的单任务框架扩展到元学习的多任务框架, 以期提升强化学习的效果. 与元学习类似, 元强化学习在任务层
面的流程分为两个阶段: 元训练阶段和元测试阶段. 该两阶段流程如图 2 所示.
图 2 元强化学习两阶段流程
其中, 元训练任务和元测试任务中的每个任务 T 对应强化学习的一个环境模型, 该模型通常是 MDP. 元
训练任务的任务分布 p(T)可能是任务场景中可调节的参数, 如物体大小、重力大小等, 这种参数以连续变量为
主, 一般使用随机数进行采样; p(T)也可能基于预设的一系列任务定义, 如机械臂的抓取、开门等任务, 采样
时随机选取离散的任务. 在元训练开始时, 从任务分布 p(T)中采样一定数量的元训练任务{T train }, 即 T train ~
p(T). 元训练任务集合可能由一次采样固定, 也可能在多轮元训练中反复由采样生成. 在元训练阶段中, 算法
基于元训练任务进行学习, 为下一阶段训练模型. 与元学习类似, 如果假定元测试任务与元训练任务服从同
一分布 p(T), 则参数化算法的元强化学习训练目标为公式(5), 其中, J T (θ)为算法在单个决策任务 T 中的强化学
习目标函数. 在元测试阶段中, 已训练的元知识/参数/模型θ将在元测试任务{T test }上自适应运行, 并得到测试
效果. 元测试任务的采样分布一般与元训练任务的任务分布 p(T)一致, 即 T test ~p(T), 但元测试任务也可能被
设定为特定任务.
现有工作在元测试阶段的评测指标主要分为两种: 零样本(zero-shot)适应性能和小样本(few-shot)适应性
能. 零样本适应性能用于评价元训练模型在元测试任务上的决策能力, 常用指标为元训练模型在元训练任务
上的采样步数-累积奖励曲线和在元测试任务上的平均累积奖励. 小样本适应性能用于评价元训练模型在元
测试任务上的快速学习能力, 常用指标为元训练模型在元测试任务上的训练累积奖励曲线, 其横坐标轴多表
示采样步数或训练轮数. 评测指标的选择主要和应用场景、算法设计目标相关, 例如: MAML 算法的目标是利
用少量样本适应新任务, 因此, MAML 适用小样本适应性能进行评价, 而零样本适应性能无法反映其优势. 此
外, 为进一步验证元强化学习方法的效果, 相关工作往往附加策略典型决策、编码特征分布或改进模块性能
等更细节内容的可视化与分析.
与元强 化学习 类似, 迁 移强 化学习(transfer reinforcement learning) [10] 、 多任务 强化 学习(multi-task
reinforcement learning) [44] 、 连续 强化 学习 (continurous reinforcement learning) [45] 、结 合域 适应 (domain
adaptation)、域泛化(domain generalization)的强化学习等领域都面向多个任务. 迁移强化学习将源任务上的学
习经验迁移到目标任务中, 从而促进在目标任务下的学习; 在迁移强化学习中, 源任务和目标任务同时可见,
且通常不关注源任务的数量问题. 多任务强化学习则面向在多个任务上同时学习的需求, 其源任务和目标任
务为给定的同一任务集. 连续强化学习也称为终身强化学习(lifelong reinforcement learning), 其面向目标任务
持续到来的场景, 一般无法同时采样多个任务进行训练, 并往往针对任务分布漂移、知识灾难性遗忘等问题