Page 62 - 《软件学报》2024年第4期
P. 62

1640                                                       软件学报  2024 年第 35 卷第 4 期

                                      表 19   多智能体元强化学习算法小结
                         算法名称                技术特点                       源码
                        BADGER [173]      元学习通信策略           https://github.com/GoodAI/badger-2019
                        MeLIBA [174]      元学习智能体建模                       −
                         MAC [175]        元学习评论家模块                       −
                         MATE [176]    元学习任务特征 VAE 的解码器      https://github.com/uoe-agents/MATE
                       Meta-OGD [177]    OGD 算法+元博弈场景                    −
                    Generalized Beliefs [178]    元学习智能体建模    https://github.com/gfppoy/hanabi-gbs
                        QM2ARL [179]    元学习量子神经网络参数                      −

         3.5   元强化学习算法应用
             强化学习在现实世界中的应用存在两大挑战:  (1)  样本采样成本极高;  (2)  意外扰动或未见场景会导致深
         度强化学习策略的测试效果急剧下降.  许多实际应用领域正逐步探索结合元强化学习的方法,  其中以交互式
         推荐、机械臂控制和具身视觉导航这 3 个典型任务为代表.  这些任务具有较为成熟的多任务仿真场景,  使得
         其中元强化学习算法的设计、迁移与验证易于实现.  以下本节按任务分别展开介绍研究进展.
         3.5.1    机械臂控制
             仿真机械臂控制是强化学习中的经典任务,  同时,  其任务设置充分地丰富多变                         [48−50] ,  使得利用元强化学
         习实现真实机械臂控制兼具可行性与挑战性.
             针对真实场景的视觉域变化问题,  James 等人提出了随机到规范自适应网络 RCANs,  其算法将随机域图
         像统一映射到同一域并依此进行决策.  该工作在真实机械臂抓取任务中测试,  只需少量样本微调就能达到较
         高成功率    [180] . Zhao 等人设计了类似 VariBAD 的视觉元强化学习算法 MELD,  该工作在真实机械臂以太网电缆
         的插入任务中测试,  在 8 小时采样训练后达到了较高成功率                   [181] .  为缓解强化学习现实应用的样本需求,  一些
         工作从仿真场景迁移知识到真实场景.  Yu 等人使用来自先前任务的人类和机器人演示数据,  利用元模仿学习
         建立先验知识,  并将先验知识结合人类视频演示进一步优化.  该工作在两种机械臂的放置、推动、拾取放置
         任务中进行测试,  机器人只需一段人类操作视频就可以学会完成相应任务                         [182] . Schoettler 等人面向更加复杂的
         机械臂零件插入任务,  在虚拟场景中基于随机化工程参数的任务和 PEARL 算法进行元训练,  然后迁移到真实
         场景并展现出良好的泛化能力           [183] .  Arndt 等人基于 VAE 构建了任务相关的轨迹生成模型以加速采样,  并使用
         MAML 元训练适应各种动态的策略.  该工作在机器人将冰球击向目标的任务中测试,  在少量样本微调时取得
         了显著的性能提升       [184] .  Jang 等人构建了一套面向机械臂的大规模交互式元模仿学习系统,  该系统融合了专家
         远程操作和机器自治过程,  能够高效地结合元模仿学习进行训练,  并在广泛的零样本和小样本任务中取得成
         效 [185] .  针对真实机械臂的动力学受各种因素影响往往难以预测的问题,  Harrison 等人元学习动力学参数并与
         环境动态模型结合,  以快速适应真实环境动力学,  算法在四旋翼交付任务中的测试性能有显著提升                                     [186] .
         Ghadirzadeh 等人结合 MAML 和类似 VariBAD 的元强化学习算法,  并用于跨机械臂平台的快速策略适应                       [187] .
         Tiboni 等人同样设计了虚实迁移算法 DROPO,  算法将环境动力学参数作为任务域进行域随机化训练,  并将真
         实示例看作目标域做域拟合.  该工作在真实机械臂冰球击发和推物品两个任务中测试,  机器人只需 5 条现实
         场景轨迹就可以适应现实环境           [188] .  语言大模型的能力在近年突飞猛进, Bing 等人基于语言指示进一步加速了
         机械臂策略的元强化学习过程           [189] .
             另一方面,  在控制领域中,  系统辨识(system identification)方法致力于辨识未知系统的模型结构与参数.
         系统辨识往往应用在多任务或 POMDP 设定下,  因此其目标和基于推断的元强化学习方法相似.  相关工作包
         括 Ross 和 Bagnell 结合基于模型强化学习的方法 DAgger        [190] 、Yu 等人结合历史编码器的工作 UP-OSI      [191] 、Liang
         等人以辨识系统参数为目标的主动探索策略方法                  [192] 、Farid 和 Sakr 结合变分推理学习的工作     [193] 等.  表 20 总
         结了上述算法的技术特点和源码链接.
   57   58   59   60   61   62   63   64   65   66   67