Page 60 - 《软件学报》2024年第4期
P. 60
1638 软件学报 2024 年第 35 卷第 4 期
综上, 视觉元强化学习的研究着力于在强化学习中引入视觉元学习的方法. 表 15 总结了上述算法的技术
特点和源码链接.
表 15 视觉元强化学习算法小结
算法名称 技术特点 源码
NetRand [147] 随机神经网络扰动输入图像 https://github.com/pokaxpoka/netrand
RAD [148] 引入多种图像状态增广方法 https://www.github.com/MishaLaskin/rad
SODA [149] 增广数据互信息软约束 https://github.com/nicklashansen/dmcontrol-generalization-benchmark
3.4.2 离线元强化学习
离线元强化学习(offline meta-reinforcement learning, OMRL)相关工作研究如何利用离线数据完成元强化
学习任务. Dorfman 等人 [150] 第一个研究了离线元强化学习问题, 他们提出了 MDP 混淆(ambiguity)的问题概念,
即算法在离线数据下对任务特征的推断可能受离线样本分布限制而产生混淆, 并且无法像传统强化学习一样
主动探索环境以降低任务特征的不确定性. 该工作针对上述问题, 基于 VariBAD [34] 构建算法. Mitchell 等人提
出了 MACAW 算法 [62] , 该算法基于结合演员-评论家算法的 MAML 框架, 采用面向离策略的优势函数加权回
归方法改进实现仅利用离线样本计算 MAML 的外层优化部分. Li 等人提出了 MBML 算法 [151] , 该算法基于
PEARL 算法, 采用离线强化学习中的批约束 Q 学习(batch constrained deep Q-learning, BCQ)作为强化学习模
块以适应离线数据集, 并利用任务特征对比的优化目标修正离线数据分布偏差导致的任务特征偏差.
其他一些工作关注多任务之间的知识迁移与利用问题. 吴少波等人在基于相对熵的逆强化学习方法中引
入元训练任务集和 MAML 方法以实现快速训练 [152] . Li 等人假设任意四元组样本(s,a,s′,r)的任务标签可以被唯
一确定, 并依此设计了 FOCAL 算法 [153] . Lin 等人发现, 虚拟环境模型可以模拟交互从而探索离线数据之外的
状态-动作对, 基于此提出了 MerPO 算法 [154] . 该算法在已有数据和未知状态-动作对间做探索-利用均衡, 学习
用于有效任务结构推断的元环境模型和用于安全探索分布外样本的元策略. Luo 等人认为, 强化学习的安全探
索问题契合离线元强化学习, 并进一步提出了安全适应元学习方法 MESA [155] . Yuan 和 Lu 提出离线数据的分
布由采样策略和任务共同决定, 而现有离线元强化学习方法无法区分这些因素, 导致任务表示的训练不稳定,
并引入对比学习以增强编码的任务特征 [156] .
综上, 目前离线元强化学习研究有两个切入点: 1) 对基于任务特征推断的相关方法,在离线数据下推断的
任务样本特征较为模糊 [150,151,156] ; 2) 通过任务间信息互补提升策略训练效果 [154] . 此外, 为提升样本效率,
Nam 等人从离线数据集中提取可重用技能和先验技能, 增强其泛用性并元学习上层策略 [157] . 表 16 总结了上
述算法的技术特点和源码链接.
表 16 离线元强化学习算法小结
算法名称 技术特点 源码
BOReL [150] 基于 VariBAD 解决 MDP 混淆问题 https://github.com/Rondorf/BOReL
MACAW [62] 利用离线样本计算 MAML 的外层优化部分 −
MBML [151] PEARL+BCQ https://github.com/Ji4chenLi/Multi-Task-Batch-RL
ReEnt-MIRL [152] 基于相对熵的逆强化学习算法+MAML −
FOCAL [153] 假设任一四元组样本的任务标签可以被唯一确定 https://github.com/FOCAL-ICLR/FOCAL-ICLR
MerPO [154] 在已有数据和未知状态-动作对间做探索-利用均衡 −
MESA [155] 离线元强化学习安全探索模块 https://tinyurl.com/safe-meta-rl
CORRO [156] 引入对比学习以增强编码任务特征 https://github.com/PKU-AI-Edge/CORRO
3.4.3 元模仿学习
模仿学习使智能体能够从专家演示样本中快速学习策略, 元模仿学习(meta-imitation learning)则期望利用
多任务的专家演示样本快速学习元策略. 此外, 模仿学习能够很好地解决元强化学习中可能面临的稀疏奖励
问题.
Mendonca 等人针对 MAML 外层优化不稳定的问题, 巧妙地采用模仿学习的监督学习目标替代 MAML 外
层原有的强化学习优化目标, 其算法 GMPS 在多项任务中的表现均大幅提升 [158] . Zhou 等人提出了算法 WTL,
以加速元强化学习算法在稀疏奖励任务中的表现. WTL 的训练流程分 3 个阶段: 首先, 利用专家样本构建探