Page 65 - 《软件学报》2024年第4期

P. 65

陈奕宇等: 元强化学习研究综述 1643

习方法并没有完整的理论分析工作, 使得相关算法的设计、论证与应用涉及不确定性, 这一定程度上阻碍了
元强化学习研究的发展.

4.3 元模块的泛化机理与性能分析问题
除元模块如何训练的问题之外, 元模块承担的功能也显著影响着元知识的表达形式及其泛化能力. 已有
的分层策略设计和各强化学习模块元学习方法均围绕元模块如何构建这一核心问题展开研究, 但现有方法的
设计依赖直觉与实验效果, 各模块发挥元知识优势的机理与性能尚难以明确分析, 亟待研究该问题以为元模
块的设计提供进一步指导.
4.4 面向更复杂任务场景的设计问题

现有元强化学习工作大多围绕同一大类任务场景开展研究, 例如从视频游戏到视频游戏、从机械臂到机
械臂等, 其中的任务差异相对局限. 然而, 广泛的现实任务迁移需求考虑更多、更复杂的任务差异性, 如控制
目标差异、所处环境差异、动作语义差异、状态维度差异等, 目前尚无成熟的类似复杂任务场景, 现有元强
化学习算法也不能很好地适应这类任务, 该方向亟待进一步探究以扩展元强化学习的适用领域.
4.5 元强化学习落地应用挑战

元强化学习的范式与人类终身学习的过程相似, 元强化学习研究有望落地到更加广泛的实际应用中, 为
人类生活增光添彩, 为世界带来新一轮的人工智能热潮. 但元强化学习落地应用面临着更多的严苛挑战, 包
括虚实迁移、大跨度任务迁移、样本来源、训练与推理效率等种种要求与指标限制, 亟待研究者攻破层层难
关, 早日让决策学习方法在更多领域开花结果.
5 总结

本文对元强化学习研究的进展进行了广泛的回顾和总结. 本文首先介绍了元强化学习的相关概念及研究
范围, 然后按研究问题从元策略学习方法、强化学习模块元学习方法、元强化学习设定的新问题、元强化学
习结合其他领域和元强化学习算法应用这 5 个方面细分并总结了相关工作进展, 最后根据对相关工作进展的
认识对元强化学习研究领域面临的关键挑战及发展展望进行了探讨.

References:
[1] Sutton RS, Barto AG. Reinforcement Learning: An Introduction. 2nd ed., Cambridge: MIT Press, 2018.
[2] Silver D, Huang A, Maddison CJ, et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016,
529(7587): 484−489.
[3] Vinyals O, Babuschkin I, Czarnecki WM, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature,
2019, 575(7782): 350−354.
[4] Li J, Koyamada S, Ye Q, et al. Suphx: Mastering mahjong with deep reinforcement learning. arXiv:2003.13590, 2020.
[5] Degrave J, Felici F, Buchli J, et al. Magnetic control of tokamak plasmas through deep reinforcement learning. Nature, 2022,
602(7897): 414−419.
[6] Dulac-Arnold G, Mankowitz D, Hester T. Challenges of real-world reinforcement learning. arXiv:1904.12901, 2019.
[7] Yu C, Liu J, Nemati S, et al. Reinforcement learning in healthcare: A survey. ACM Computing Surveys, 2021, 55(1): 1−36.
[8] Gupta S, Singal G, Garg D. Deep reinforcement learning techniques in diversified domains: A survey. Archives of Computational
Methods in Engineering, 2021, 28(7): 4715−4754.
[9] Schrittwieser J, Antonoglou I, Hubert T, et al. Mastering Atari, Go, chess and shogi by planning with a learned model. Nature,
2020, 588(7839): 604−609.
[10] Zhu Z, Lin K, Jain AK, et al. Transfer learning in deep reinforcement learning: A survey. arXiv:2009.07888, 2020.
[11] Kirk R, Zhang A, Grefenstette E, et al. A survey of zero-shot generalisation in deep reinforcement learning. Journal of Artificial
Intelligence Research, 2023, 76: 201−264.
[12] Bock P. A perspective on artificial intelligence: learning to learn. Annals of Operations Research, 1988, 16(1): 33−52.
[13] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks. In: Proc. of the Int’l Conf. on
Machine Learning, Vol.3. 2017. 1126−1135.

60 61 62 63 64 65 66 67 68 69 70