Page 41 - 《软件学报》2024年第4期
P. 41

陈奕宇  等:  元强化学习研究综述                                                               1619


         Key words: meta-reinforcement learning; reinforcement learning; deep reinforcement learning; meta-learning

             强化学习(reinforcement learning, RL)是机器学习领域中的一种主要范式,  区别于以图像处理为代表的感
         知学习,  感知学习主要处理监督学习问题,  而强化学习的目标是解决带奖励的序贯决策问题.  强化学习算法
                                                                                               [1]
         以贝尔曼方程为基础,  通过在环境中不断试错、累积经验并学习改进,  从而得到在给定任务上的更优策略 .
         近年来,  得益于深度学习强大的特征表示能力和函数拟合能力,  深度强化学习(deep  reinforcement learning,
         DRL)在游戏、机器人等越来越多的场景中展现出惊人的能力,  其知名成果包括围棋中 AlphaGo 接连战胜人类
                 [2]
                                                                [3]
         世界冠军 、星际争霸 II 中 AlphaStar 评分达到最顶尖的大师段位 、麻将中微软亚洲研究院开发的 Suphx
                                                      [4]
         首次在专业日本麻将平台“天凤”上荣升至最顶尖的十段 ,  以及核聚变工程中 DeepMind 团队开发的灵活通用
                              [5]
         的托卡马克磁控制器架构 .  此外,  深度强化学习在各行各业也逐渐落地                      [6−8] .
             然而,  当前深度强化学习的成功很大程度上依赖海量的学习数据与计算资源:  国际象棋基准算法 MuZero
                                   [9]
                            6
         训练初具成效需要约 10 步数据 ,  按每秒 60 步采样需要约 11 天; DeepMind 使用 384 个 TPU 并行运行约 44
                                                   [3]
         天才完成星际争霸 II 算法 AlphaStar 的强化学习训练 .  深度强化学习的训练成本高昂,  这使其应用范围受到
         很大限制.  该现象主要因为目前普遍采用的深度强化学习算法面对新任务总是从零开始学习或迁移训练的效
         率不高.  反观人类的学习过程,  人类在学会骑自行车后,  可以很快地学会骑电动滑板车,  因为人擅长将已掌握
         的知识类推到新任务并加以有效利用;  如果智能体能够在任务间高效迁移知识,  其在新任务上的训练成本同
         样有望显著降低       [10] ,  从而拓展强化学习的应用边界,  同时推进相关领域向类人智能迈进.  为解决上述问题,
         现有学者针对强化学习的样本高效利用               [10] 、强化学习的泛化    [11] 等需求开展研究.
             元学习(meta-learning)可看作泛化研究的子领域,  相关工作致力于迁移已有知识并减少训练样本.  元学习
         也被称为学习如何学习(learning-to-learn),  其概念最早可追溯到上世纪             [12] ,  而近年来该领域以 MAML(model-
         agnostic meta-learning)框架 [13] 为热点引起了持续关注与研究浪潮.  元学习领域已有许多算法、扩展应用和综
         述 [14−17] ,  但各方对“元学习”一词的定义与界限不完全统一.  本文主要遵循一种广义解释                     [15,16] ,  认为元学习是
         一种机器学习范式:  给定多个任务或任务采样分布,  要求元强化学习算法学习“元”知识,  并提升算法在新任
         务上的学习效率.
             元强化学习(meta-reinforcement learning, Meta-RL)概念来源于元学习和强化学习的结合,  期望解决当前
         强化学习算法中存在的诸多限制             [18] .  元强化学习的研究门槛较高,  该研究领域的发展较元学习滞后.  据我们
         所知,  元强化学习综述多存在于强化学习综述               [11,19] 、元学习综述 [15,16] 及相关领域综述  [20] 中,  其系统性和参考
         价值较弱;  大篇幅综述元强化学习的工作已有 3 篇:  赵春宇和赖俊的工作                     [21] 对元策略学习方法进行了扩展和
         总结,  谭晓阳和张哲的工作        [18] 从设计和分析元强化学习算法的学习经验(相关任务)、归纳偏置及学习目标这 3
         个角度对元强化学习典型研究进行了归纳总结, Beck 等人的工作                    [22] 从元测试阶段样本量设定及其相关技术的
         角度对元强化学习研究进行了较细致的归纳总结.  但近两年学术界涌现出许多值得思考的新问题与代表算
         法,  现有工作已经构成更加整体的研究轮廓,  为元强化学习领域提供了新的理解与方向,  元强化学习领域需
         要一份针对前沿、关键问题的整体归纳总结工作,  从而更好地推动相关领域发展.
             与现有元强化学习综述不同,  本文以元强化学习工作的研究对象与适用场景为脉络,  对元强化学习领域
         的研究进展进行了全面梳理.  本文第 1 节对深度强化学习、元学习两个相关背景作基本介绍.  第 2 节概述元
         强化学习研究范围,  包括元强化学习的形式化定义及常见的场景设置总结.  第 3 节按元强化学习研究成果的
         研究对象与适用场景展开介绍元强化学习的现有研究进展,  其中各小节按研究对象不同作进一步的细分介
         绍.  第 4 节针对现有元强化学习研究仍面临的一些关键问题,  提出领域中可能的研究挑战与展望.  最后,  第 5
         节总结全文.

         1    元强化学习背景简介

             元强化学习是强化学习与元学习的交叉领域,  涉及强化学习与元学习的研究背景.  本节简述元强化学习
   36   37   38   39   40   41   42   43   44   45   46