Page 179 - 《软件学报》2025年第5期
P. 179
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(5):2079−2093 [doi: 10.13328/j.cnki.jos.007184] [CSTR: 32375.14.jos.007184] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
基于分组对比学习的序贯感知技能发现
杨尚东 1,2,3 , 余淼盈 1 , 陈兴国 1 , 陈 蕾 1
1
(南京邮电大学 计算机学院、软件学院、网络空间安全学院, 江苏 南京 210023)
(计算机软件新技术国家重点实验室 (南京大学), 江苏 南京 210023)
2
3
(广西多源信息挖掘与安全重点实验室 (广西师范大学), 广西 桂林 541004)
通信作者: 陈蕾, E-mail: chenlei@njupt.edu.cn
摘 要: 强化学习在智能对话系统等决策任务中取得了令人瞩目的结果, 但其在复杂的、奖励稀疏的任务中学习
效率较低. 研究人员在强化学习中引入技能发现框架, 以最大化不同技能间的差异为目标构建技能策略, 提升了智
能体在上述任务中的学习效率. 然而, 受到采样轨迹数据多样性的限制, 现有的技能发现方法局限于在一个强化学
习回合中学习一种技能, 导致其在一回合中具有序贯技能组合的复杂任务中表现欠佳. 针对该问题, 提出一种基于
分组对比学习的序贯感知技能发现方法 (group-wise contrastive learning based sequence-aware skill discovery,
GCSSD), 该方法将对比学习融合到技能发现框架中. 首先, 为了提升轨迹数据的多样性, 将与环境交互的完整轨迹
分段并进行分组, 利用分组轨迹构建对比损失学习技能嵌入表征; 其次, 结合技能嵌入表征与强化学习进行技能策
略训练; 最后, 为了提升在具有不同序贯技能组合任务上的性能, 对采样轨迹进行分段技能表征并将其嵌入策略网
络, 实现对已学技能策略的序贯组合. 实验结果表明, GCSSD 方法在具有序贯技能组合的稀疏奖励任务中具有较
好的训练效果, 并且在具有与训练任务不同的序贯技能组合任务中, 能够利用已学技能对该任务进行快速适应.
关键词: 强化学习; 轨迹分组; 对比学习; 序贯感知; 技能发现
中图法分类号: TP18
中文引用格式: 杨尚东, 余淼盈, 陈兴国, 陈蕾. 基于分组对比学习的序贯感知技能发现. 软件学报, 2025, 36(5): 2079–2093. http://
www.jos.org.cn/1000-9825/7184.htm
英文引用格式: Yang SD, Yu MY, Chen XG, Chen L. Group-wise Contrastive Learning Based Sequence -aware Skill Discovery. Ruan
Jian Xue Bao/Journal of Software, 2025, 36(5): 2079–2093 (in Chinese). http://www.jos.org.cn/1000-9825/7184.htm
Group-wise Contrastive Learning Based Sequence-aware Skill Discovery
1
1
YANG Shang-Dong 1,2,3 , YU Miao-Ying , CHEN Xing-Guo , CHEN Lei 1
1
(School of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210023, China)
2
(State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023, China)
3
(Guangxi Key Lab of Multi-source Information Mining & Security (Guangxi Normal University), Guilin 541004, China)
Abstract: Reinforcement learning has achieved remarkable results in decision-making tasks like intelligent dialogue systems, yet its
efficiency diminishes notably in scenarios with intricate structures and scarce rewards. Researchers have integrated the skill discovery
framework into reinforcement learning, aiming to maximize skill disparities to establish policies and boost agent performance in such tasks.
However, the constraint posed by the limited diversity of sampled trajectory data confines existing skill discovery methods to learning a
single skill per reinforcement learning episode. Consequently, this limitation results in subpar performance in complex tasks requiring
sequential skill combinations within a single episode. To address this challenge, a group-wise contrastive learning based sequence-aware
skill discovery method (GCSSD) is proposed, which integrates contrastive learning into the skill discovery framework. Initially, to augment
* 基金项目: 国家自然科学基金 (62206133, 62276142); 江苏省重点研发计划 (BE2021093); 南京大学计算机软件新技术国家重点实验室
资助项目 (KFKT2022B12); 广西多源信息挖掘与安全重点实验室开放基金 (MIMS22-01); 江苏省双创博士项目 (JSSCBS20210539)
收稿时间: 2023-09-20; 修改时间: 2023-12-25; 采用时间: 2024-03-27; jos 在线出版时间: 2024-11-20
CNKI 网络首发时间: 2024-11-25