Page 61 - 《软件学报》2024年第4期

P. 61

陈奕宇等: 元强化学习研究综述 1639

索策略; 然后, 利用探索策略采集任务样本; 最后, 利用专家样本和采集样本共同训练元策略 [159] . 同样, 为
加速元强化学习算法在稀疏奖励任务中的表现, Rengarajan 等人提出的算法 EMRLD 将 MAML 的内层优化目
标替换为强化学习目标和模仿学习目标的加权组合, 并针对次优演示数据提出了算法变体 EMRLD-WS [160] .
Bhutani 等人提出了一种结合空间注意力的图像状态特征提取架构, 并采用元模仿学习范式进行训练 [161] .
综上, 目前离线元强化学习研究的切入点是, 采用专家样本和模仿学习替代 MAML 的一些模块以增强算
法稳定性和学习效果. 此外, 因模仿学习的设定可以看作离线学习的一种, 其技术途径可以沿用离线元强化
学习. 表 17 总结了上述算法的技术特点和源码链接.

表 17 元模仿学习算法小结
算法名称技术特点源码
GMPS [158] 模仿学习替代 MAML 外层优化 https://github.com/russellmendonca/GMPS
WTL [159] 内在奖励函数+梯度下降强化学习 https://github.com/google-research/tensor2robot/tree/master/research/vrgripper
EMRLD [160] 模仿学习加入 MAML 内层优化 https://github.com/DesikRengarajan/EMRLD
Attentive 架构 [161] MaxEnt IRL+基于记忆的元强化学习算法 −

3.4.4 持续元强化学习
在持续元强化学习(continual meta-reinforcement learning)的设定中, 多个任务接连到来, 智能体需要在每
个当前任务执行元强化学习: 利用过去任务的知识完成当前任务, 并为未来的任务积累知识. 相关工作主要
致力于利用元强化学习方法解决持续强化学习中的灾难性遗忘问题: Berseth 等人设法在任务流中利用之前任
务的离策略数据进行训练, 他们基于 GMPS 框架 [158] 提出了算法 CoMPS, 其主要加入重要性采样来离策略训
练内循环期间的策略参数 [61] . Caccia 等人使用基于重放和循环神经网络的强化学习算法 3RL 在 MetaWorld 环
境中取得效果提升, 其中, RNN 能够根据先前任务经验推断新任务的任务表征, 并缓解了持续学习的灾难性
遗忘问题 [162] . Kessler 等人在持续强化学习中元学习世界模型, 该模型能够跨任务记忆经验并因此缓解灾难性
遗忘 [163] .
综上, 一般算法难以部署到持续元强化学习的任务设定中, 因此, 相关工作致力于将元强化学习方法和
持续学习方法有机地结合起来, 现有工作均采用了不同的技术思路. 表 18 总结了上述算法的技术特点和源码
链接.
表 18 持续元强化学习算法小结
算法名称技术特点源码
CoMPS [61] GMPS+离策略训练 −
3RL [162] 基于重放和循环神经网络推断任务表征 https://github.com/amazon-research/replay-based-recurrent-rl
DreamerV2+CRL [163] 元学习世界模型 https://anonymous.4open.science/r/dv24crl-C594

3.4.5 多智能体元强化学习
现有多智能体元强化学习工作主要围绕多智能体特有的可泛化模块展开研究. 研究中常见的任务场景包
括网格地图 [164−167] 、交通场景 [166,168] 、粒子场景 [169] 、星际争霸 [170] 、棋牌博弈 [171,172] 等. Rosa 等人提出了为智
能体学习负责智能体间通信的元专家策略, 该专家策略在变化的环境中展现出良好的泛化能力 [173] ; Zintgraf
等人提出的算法 MeLIBA 将每个智能体的建模看作一个可泛化的任务, 并基于 VAE 元学习推断其他智能体动
作的置信概率 [174] ; Huang 等人为多演员-评论家架构的智能体构建了元演员-评论家模块, 该模块为每个智能
体的演员模块提供更好的额外优化目标 [175] ; Schäfer 等人针对智能体独立推断任务特征难的问题, 构建信息更
全面的全局元任务特征解码器来帮助智能体训练 [176] ; Harris 等人面向动态演变的多博弈求解场景设计并理论
分析了元学习算法 Meta-OGD [177] ; Muglich 等人为智能体信念建模设计了轻量的近似计算算法, 该算法同时具
有良好的任务间泛化能力 [178] ; Yun 等人元学习量子神经网络(quantum neural networks, QNN), 以快速适应多
智能体带来的时变环境 [179] . 表 19 总结了上述算法的技术特点和源码链接.

56 57 58 59 60 61 62 63 64 65 66