Page 180 - 《软件学报》2025年第5期
P. 180

2080                                                       软件学报  2025  年第  36  卷第  5  期


                 trajectory  data  diversity,  the  complete  trajectories  interacting  with  the  environment  are  segmented  and  grouped,  employing  contrastive  loss
                 to  learn  skill  embedding  representations  from  grouped  trajectories.  Subsequently,  skill  policy  training  is  conducted  by  combining  the  skill
                 embedding  representation  with  reinforcement  learning.  Lastly,  to  enhance  performance  in  tasks  featuring  diverse  sequential  skill
                 combinations,  the  sampled  trajectories  are  segmented  into  skill  representations  and  embedded  into  the  learned  policy  network,  facilitating
                 the  sequential  combination  of  learned  skill  policies.  Experimental  results  demonstrate  the  efficacy  of  the  GCSSD  method  in  tasks
                 characterized  by  sparse  rewards  and  sequential  skill  combinations,  showcasing  its  capability  to  swiftly  adapt  to  tasks  with  varying
                 sequential skill combinations using learned skills.
                 Key words:  reinforcement learning; trajectory grouping; contrastive learning; sequence-aware; skill discovery
                    在强化学习     (reinforcement learning, RL) 中, 智能体  (agent) 与未知环境交互获得奖励信号, 目的是学习到一个
                 最大化累计奖励的策略. 近年来, 伴随神经网络技术的发展, 强化学习已广泛应用于智能对话系统                              [1−3] 、机器人控
                 制  [4,5] 等任务中. 然而, 与可以通过较低代价获得交互样本的场景不同, 在诸如自动驾驶                    [6] 、无人机对抗  [7] 等应用
                 中, 获取大量的、奖励稠密的样本代价较高, 直接采用经典的强化学习算法并不能获得让人满意的效果.
                    研究者们对上述问题从不同的视角开展了较为广泛的研究. 如从挖掘任务间关联的视角, 开展了多任务强化
                 学习  (multi-task RL) 研究  [8,9] ; 从元知识的获取与泛化视角, 开展了元强化学习      (meta RL) 研究  [10] ; 从利用无需与环
                 境在线交互的视角, 开展了离线强化学习              (offline RL) 研究  [11] ; 从策略演进与提升的视角, 开展了迁移强化学习
                 (transfer RL)、终身强化学习   (lifelong RL) 研究  [12,13] . 当前, 最新的研究成果往往从上述多个视角出发解决上述问
                 题, 其中, 结合了元强化学习与迁移学习等思想的技能发现                 (skill discovery) 方法是当前的一个研究热点.
                    强化学习中的技能发现方法, 受到了人类有能力通过结合过去在相似任务中学习到的多种技能来完成新任务
                 这一特点的启发. 与目前大多数直接针对训练任务进行端到端策略优化的强化学习方法                             [14−16] 不同, 基于技能发现
                 的强化学习方法通过学习与使用由原子动作组成的策略抉择                      (option) [17] , 本文称之为技能, 来解决复杂的长期任
                 务. 若任务间具有类似的技能, 则智能体面临类似的新任务时, 他们可以高效地结合这些技能完成这项任务. 技能
                 发现可以通过抉择框架形式化           [17] , 该框架用抉择的概念定义了原子动作组成的动作序列. 为了便于学习, 抉择或
                 技能通常通过在普通策略中引入技能潜在参数                 z 来制定, 从而形成一种形式为        π(a | s,z) 的技能策略, 在强化学习
                                                          [18−20]
                 一个回合内的多个时间步或整个回合内保持相同的                  z    . 然而, 现有的技能发现方法有以下方面不足. 首先, 这
                 些方法中的技能需要额外的人工定义或数据进行学习                   [18,21,22] . 例如, 预先手动设计技能和正确的关于任务的技能
                 组合, 以便更高级别的策略学习, 或者通过大量演示数据学习技能. 其次, 这方法中的问题设定较为简单. 他们在固
                 定的环境中学习技能, 每个回合目标相对固定              [19,20,23] 、一个回合内具有一种技能时, 学习效果较好. 但对于一个回
                 合内存在多个目标, 且不同回合间的目标参数不同, 导致一个回合内存在序贯技能组合的任务, 这类方法存在明显
                 不足. 为此, 本文关注稀疏奖励下的多目标强化学习问题, 并设计面向该问题的技能发现方法. 该方法可在上述复
                 杂的训练任务中学习到不同技能, 并且在测试任务中可利用已学技能进行序贯组合.
                    具体而言, 我们提出了一种基于分组对比学习的序贯感知技能发现方法                         (GCSSD). GCSSD  方法包含  3  个部
                 分, 即基于分组对比学习的技能嵌入表征、基于技能表征的强化学习训练和测试场景中的技能序贯组合. 第                                   1  部
                 分, 我们认为, 智能体在采样策略下的轨迹包含了序贯技能信息, 则对轨迹进行分段并将分段后的轨迹进行分组,
                 分组后的轨迹可能包含技能信息. 因此, 使用对比学习对分组轨迹进行编码, 并与其他分组的轨迹进行比较, 以获
                 得技能的嵌入表征. 第       2  部分, 将技能嵌入表征按照技能和任务的对应信息进行组合, 作为智能体策略的联合输
                 入, 指导其执行与任务相关的技能. 采用联合训练嵌入网络和策略网络, 以便在很少人工设计的情况下学习技能和
                 任务相关技能序贯组合. 第        3  部分, 当与训练任务不同的序贯技能组合的测试任务时, 利用所学策略对该任务采样
                 轨迹与分组编码, 自适应获得新任务的技能嵌入表征作为已学习策略的联合输入. 我们在两个实验场景中与目前
                 的基准强化学习算法和基准技能发现算法进行了比较, 训练和测试实验的结果表明了本文所提方法的有效性.
                    本文的主要贡献包括以下          3  点.
                    (1) 面向实际应用中存在的奖励稀疏、技能序贯组合挑战, 提出了稀疏奖励下多目标导向强化学习问题, 针对
                 稀疏奖励, 通过分组对比学习的方式学习技能嵌入表征.
                    (2) 此外, 针对多目标导向强化学习问题, 分别在训练、测试阶段对分段轨迹进行序贯技能嵌入表征, 并结合
   175   176   177   178   179   180   181   182   183   184   185