Page 180 - 《软件学报》2025年第5期
P. 180
2080 软件学报 2025 年第 36 卷第 5 期
trajectory data diversity, the complete trajectories interacting with the environment are segmented and grouped, employing contrastive loss
to learn skill embedding representations from grouped trajectories. Subsequently, skill policy training is conducted by combining the skill
embedding representation with reinforcement learning. Lastly, to enhance performance in tasks featuring diverse sequential skill
combinations, the sampled trajectories are segmented into skill representations and embedded into the learned policy network, facilitating
the sequential combination of learned skill policies. Experimental results demonstrate the efficacy of the GCSSD method in tasks
characterized by sparse rewards and sequential skill combinations, showcasing its capability to swiftly adapt to tasks with varying
sequential skill combinations using learned skills.
Key words: reinforcement learning; trajectory grouping; contrastive learning; sequence-aware; skill discovery
在强化学习 (reinforcement learning, RL) 中, 智能体 (agent) 与未知环境交互获得奖励信号, 目的是学习到一个
最大化累计奖励的策略. 近年来, 伴随神经网络技术的发展, 强化学习已广泛应用于智能对话系统 [1−3] 、机器人控
制 [4,5] 等任务中. 然而, 与可以通过较低代价获得交互样本的场景不同, 在诸如自动驾驶 [6] 、无人机对抗 [7] 等应用
中, 获取大量的、奖励稠密的样本代价较高, 直接采用经典的强化学习算法并不能获得让人满意的效果.
研究者们对上述问题从不同的视角开展了较为广泛的研究. 如从挖掘任务间关联的视角, 开展了多任务强化
学习 (multi-task RL) 研究 [8,9] ; 从元知识的获取与泛化视角, 开展了元强化学习 (meta RL) 研究 [10] ; 从利用无需与环
境在线交互的视角, 开展了离线强化学习 (offline RL) 研究 [11] ; 从策略演进与提升的视角, 开展了迁移强化学习
(transfer RL)、终身强化学习 (lifelong RL) 研究 [12,13] . 当前, 最新的研究成果往往从上述多个视角出发解决上述问
题, 其中, 结合了元强化学习与迁移学习等思想的技能发现 (skill discovery) 方法是当前的一个研究热点.
强化学习中的技能发现方法, 受到了人类有能力通过结合过去在相似任务中学习到的多种技能来完成新任务
这一特点的启发. 与目前大多数直接针对训练任务进行端到端策略优化的强化学习方法 [14−16] 不同, 基于技能发现
的强化学习方法通过学习与使用由原子动作组成的策略抉择 (option) [17] , 本文称之为技能, 来解决复杂的长期任
务. 若任务间具有类似的技能, 则智能体面临类似的新任务时, 他们可以高效地结合这些技能完成这项任务. 技能
发现可以通过抉择框架形式化 [17] , 该框架用抉择的概念定义了原子动作组成的动作序列. 为了便于学习, 抉择或
技能通常通过在普通策略中引入技能潜在参数 z 来制定, 从而形成一种形式为 π(a | s,z) 的技能策略, 在强化学习
[18−20]
一个回合内的多个时间步或整个回合内保持相同的 z . 然而, 现有的技能发现方法有以下方面不足. 首先, 这
些方法中的技能需要额外的人工定义或数据进行学习 [18,21,22] . 例如, 预先手动设计技能和正确的关于任务的技能
组合, 以便更高级别的策略学习, 或者通过大量演示数据学习技能. 其次, 这方法中的问题设定较为简单. 他们在固
定的环境中学习技能, 每个回合目标相对固定 [19,20,23] 、一个回合内具有一种技能时, 学习效果较好. 但对于一个回
合内存在多个目标, 且不同回合间的目标参数不同, 导致一个回合内存在序贯技能组合的任务, 这类方法存在明显
不足. 为此, 本文关注稀疏奖励下的多目标强化学习问题, 并设计面向该问题的技能发现方法. 该方法可在上述复
杂的训练任务中学习到不同技能, 并且在测试任务中可利用已学技能进行序贯组合.
具体而言, 我们提出了一种基于分组对比学习的序贯感知技能发现方法 (GCSSD). GCSSD 方法包含 3 个部
分, 即基于分组对比学习的技能嵌入表征、基于技能表征的强化学习训练和测试场景中的技能序贯组合. 第 1 部
分, 我们认为, 智能体在采样策略下的轨迹包含了序贯技能信息, 则对轨迹进行分段并将分段后的轨迹进行分组,
分组后的轨迹可能包含技能信息. 因此, 使用对比学习对分组轨迹进行编码, 并与其他分组的轨迹进行比较, 以获
得技能的嵌入表征. 第 2 部分, 将技能嵌入表征按照技能和任务的对应信息进行组合, 作为智能体策略的联合输
入, 指导其执行与任务相关的技能. 采用联合训练嵌入网络和策略网络, 以便在很少人工设计的情况下学习技能和
任务相关技能序贯组合. 第 3 部分, 当与训练任务不同的序贯技能组合的测试任务时, 利用所学策略对该任务采样
轨迹与分组编码, 自适应获得新任务的技能嵌入表征作为已学习策略的联合输入. 我们在两个实验场景中与目前
的基准强化学习算法和基准技能发现算法进行了比较, 训练和测试实验的结果表明了本文所提方法的有效性.
本文的主要贡献包括以下 3 点.
(1) 面向实际应用中存在的奖励稀疏、技能序贯组合挑战, 提出了稀疏奖励下多目标导向强化学习问题, 针对
稀疏奖励, 通过分组对比学习的方式学习技能嵌入表征.
(2) 此外, 针对多目标导向强化学习问题, 分别在训练、测试阶段对分段轨迹进行序贯技能嵌入表征, 并结合