Page 47 - 《软件学报》2024年第4期

P. 47

陈奕宇等: 元强化学习研究综述 1625

图 5 Meta-World [59] 、Alchemy [63] 环境场景

3 元强化学习研究进展

本节综述元强化学习的研究进展, 按元强化学习研究的研究对象与适用场景将现有工作分为元策略学习
方法、强化学习模块元学习方法、元强化学习设定的新问题、元强化学习结合其他领域、元强化学习算法应
用五层次展开, 脉络图如图 6 所示.

图 6 元强化学习研究进展分类脉络图

上述顺序同时对应研究工作的大致时间先后顺序. 其中, 从元强化学习研究的定义与场景设置出发, 元
学习研究大多面向单一端到端模型的训练, 类比在强化学习中则针对主要的策略模型端到端学习展开研究,
对应第 3.1 节的元策略学习方法. 除策略模型外, 强化学习框架中天然存在许多可学习的泛用模块, 相关工作
元学习这些模块以提升智能体的表现, 对应第 3.2 节的强化学习模块元学习方法. 此外, 元强化学习不仅是一
种新模型的训练方法, 其独特的任务设定也在强化学习的原有技术思路基础上引入了一些需要考虑的新问
题. 该部分研究对应第 3.3 节的元强化学习设定的新问题, 相关工作基于已有元强化学习方法改进解决这些
新问题. 接着, 元强化学习框架的泛用性使其容易与其他研究领域和落地应用结合, 用以提升原方法在目标

42 43 44 45 46 47 48 49 50 51 52