Page 46 - 《软件学报》2024年第4期

P. 46

1624 软件学报 2024 年第 35 卷第 4 期

优点, 相关工作 [32,34] 的实验场景均以迷宫、导航任务为主. 事实上, 大部分现实任务都存在部分可观测状态,
因此该类场景与算法也更加贴近应用.
还有一些工作以视频游戏为基础构建任务. OpenAI 基于《刺猬索尼克》游戏构建任务集 [52] , 该任务集将
原游戏按区域划分为 11 个任务场景, 所有任务的游戏规则基本相同, 但图像纹理、对象和通关策略不同. 次
年, OpenAI 发布视频游戏任务集 CoinRun [53] , 智能体的目标是控制小人达到硬币位置. 其环境场景(状态)如图
4 中左图所示, 其中每个任务为难度不一的关卡, 并且背景纹理、对象纹理具有随机的显著视觉差异. 这些视
频游戏同样蕴含着丰富的策略, 但高维输入使得元强化学习算法的训练和测试更难 [54] , 这可能是视频游戏环
境应用相对较少的原因.

图 4 CoinRun [53] 、Procgen [55] 环境场景

事实上, 很多强化学习环境具备场景的随机化功能, 同样符合元强化学习研究的任务需求. 在 MiniGrid
环境 [56] 中, 地图的大小与布局可随意配置从而生成不同的任务, 同时, 官方提供丰富的预设地图环境. 由
FaceBook 开源的强化学习游戏 MiniHack 可以自动随机生成各种游戏环境, 从怪物位置、类型到关卡、物体
和地形, 用户可以控制地图中每一处细节 [57] .《我的世界》(Minecraft)作为开放沙盒游戏, 其随机生成的庞大
初始世界可构成元任务集合, 同时, 游戏中复杂的通关步骤和极大的状态空间使智能体的训练面临较高难
度 [58] .
最近的工作认为: 迁移方法与效果不仅与任务浅层特征相关, 还更多地与智能体策略学得的技能相关.
前述的实验场景虽然从 MDP 定义上属于不同任务, 但其中跨任务的元策略或技能相当局限, 这样的设定难以
训练或验证元强化学习算法在更广泛任务上的泛化能力. OpenAI 发布的视频游戏集合 Procgen [55] 包含 16 个风
格各异的游戏, 包括 CoinRun、迷宫、大鱼吃小鱼等, 各游戏的环境场景(状态)如图 4 中右图所示. 其中, 各
游戏的输入和输出统一格式, 这使得训练单一强化学习智能体玩所有游戏成为可能, 但游戏间策略显著差异
与高维状态输入带来极大的训练难度. Yu 等人提供了开源的元强化学习模拟环境 Meta-World [59] , 它由 50 个机
器人操作任务组成, 各任务的环境场景如图 5 中左图所示. 这些任务共享同一个桌面和机械手, 但其操作任务
呈现出鲜明的技能特征, 如开窗户、开抽屉任务的策略为“抓取+直线运动”, 转盘、水龙头、开门任务的策略
为“抓取+弧线运动”等. Meta-World 正被越来越多的元强化学习工作选为实验场景 [60−62] . DeepMind 发布的 3D
视频游戏 Alchemy [63] 则考验智能体是否能基于元知识进行因果推断, 该游戏的目标是控制机械臂利用多个药
水改变多个石头使石头总价值最高, 该环境场景(状态)如图 5 中右图所示. 在 Alchemy 不同的任务中石头外观
与分数对应关系不同, 且药水对石头的影响不同, 但药剂效果与颜色存在因果限制, 在同一回合内, 同种外观
的石头及药水也具有同样的性质, 这使正确的因果推断能带来显著任务效益.
元强化学习研究正在向更具有挑战性的场景探索. 从设计者角度来看, 现有的研究仅仅通过实验结果验
证场景难度, 在环境难易度、策略迁移难易度等方面尚缺少可以指导元任务设计的理论和框架.

41 42 43 44 45 46 47 48 49 50 51