Page 188 - 《软件学报》2025年第5期
P. 188

2088                                                       软件学报  2025  年第  36  卷第  5  期


                                                       训练阶段任务类型

                                          S               G   S                G

                                          S               G   S                G
                                                       测试阶段任务类型
                                          S               G   S                G
                                                  图 4 网格世界环境示意图

                    智能体需从左边的起点出发, 每个回合起始点从左侧浅蓝色                    3  个状态中随机产生. 碰到      2  个从浅红色区域随
                 机产生的目标, 并且躲开途中的          2  个位置固定的绿色目标, 最终到达回合开始前从最右边蓝色区域随机产生的目
                 标点. 图中灰色网格为边界墙, 如果走到灰色网格将退回原来的网格. 训练环境具有                         4  种任务类型, 每种任务类型
                                                                       4
                    4
                 有  3 种具体任务; 测试环境具有两种任务类型, 每种任务分布同样有                  3 种具体任务. 智能体每走一步奖励值为−1,
                 碰到一个红色目标奖励值为+10, 碰到一个绿色目标奖励值为−10, 碰到终点奖励值为+10. 每个回合的最大步长为
                 100, 若智能体到达两个红色目标, 并且躲开两个绿色目标, 最终到达终点, 则认为成功完成该任务.

                 4.1.2    质点控制
                    本文设计了一种面向稀疏奖励下的多目标导向强化学习的质点控制任务, 我们基于                                DeepMind  公司的
                 MuJoCo  虚拟引擎  [44] 和  OpenAI 公司的  Gym  的强化学习的标准   API [45] , 设计了一个连续动作环境, 智能体在      2  维
                 连续空间内执行动作, 如图        5  所示.

                                                训练阶段任务类型            测试阶段任务类型









                                                  图 5 质点控制环境示意图

                    智能体需从中间的起点出发, 依次找到蓝色的目标                 g 1  、绿色目标  g 2  . 训练环境具有  6  种任务类型, 图  5  左边
                 列出了   4  种. 测试环境具有   2  种任务类型, 如图   5  右边所示. 每个回合, 各个任务的起点、          g 1  、  g 2  从图中正方形的
                                                                   g 2  奖励值为  0. 在该类型的任务中, 我们期望智能
                 浅色区域内生成. 智能体每走一步奖励值为−1, 按次序碰到                 g 1  和
                 体学到向上/下/左/右寻找目标点         4  个技能, 分别在图    5  中用不同颜色箭头表示, 在测试任务中, 是训练任务没有的
                 任务类型.

                 4.2   基线方法与参数设置

                 4.2.1    基线方法
                    本文所提出的      GCSSD  方法主要针对多目标的强化学习任务, 并且可以结合在策略和离策略的强化学习算法,
                 处理离散和连续动作空间的任务. 因此, 采用在策略的                PPO  方法作为离散任务中的基线方法, 采用离策略的               SAC
                 方法作为连续任务中的基线方法. 并结合深度循环网络对其处理多任务能力进行增强, 此外, 在两种任务中引入
                 OC  算法, 作为目前技能学习的基线方法. 因此, 通过上述该方法与                GCSSD  进行比较, 能够展示其技能学习优势.
                    ● PPO  是一种基于策略梯度的强化学习算法            [15] , 其核心是结合了策略梯度方法和剪切         (clipping) 技术, 从而能
                 够有效地避免过度更新策略, 提高算法的稳定性和可靠性.
                    ● RPPO  使用循环神经网络      (RNN) 来表示策略函数     [46] , 通过将历史状态和动作信息作为输入, 使得策略函数
                 能够更好地处理长期依赖性, 是面向多任务环境改进                 PPO  算法的常用方法.
   183   184   185   186   187   188   189   190   191   192   193