Page 9 - 《软件学报》2024年第4期
P. 9
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2024,35(4):1587−1600 [doi: 10.13328/j.cnki.jos.007014] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
∗
基于多样真实任务生成的鲁棒小样本分类方法
1,2
1,2
1,2
刘 鑫 , 景丽萍 , 于 剑
1 (交通数据分析与挖掘北京市重点实验室(北京交通大学), 北京 100044)
2 (北京交通大学 计算机与信息技术学院, 北京 100044)
通信作者: 景丽萍, E-mail: lpjing@bjtu.edu.cn
摘 要: 随着大数据、计算机与互联网等技术的不断进步, 以机器学习和深度学习为代表的人工智能技术取得了
巨大成功, 尤其是最近不断涌现的各种大模型, 极大地加速了人工智能技术在各个领域的应用. 但这些技术的成
功离不开海量训练数据和充足的计算资源, 大大限制了这些方法在一些数据或计算资源匮乏领域的应用. 因此,
如何利用少量样本进行学习, 也就是小样本学习成为以人工智能技术引领新一轮产业变革中一个十分重要的研究
问题. 小样本学习中最常用的方法是基于元学习的方法, 这类方法通过在一系列相似的训练任务上学习解决这类
任务的元知识, 在新的测试任务上利用元知识可以进行快速学习. 虽然这类方法在小样本分类任务上取得了不错
的效果, 但是这类方法的一个潜在假设是训练任务和测试任务来自同一分布. 这意味着训练任务需要足够多才能
使模型学到的元知识泛化到不断变化的测试任务中. 但是在一些真正数据匮乏的应用场景, 训练任务的数量也是
难以保证的. 为此, 提出一种基于多样真实任务生成的鲁棒小样本分类方法(DATG). 该方法通过对已有少量任务
进行 Mixup, 可以生成更多的训练任务帮助模型进行学习. 通过约束生成任务的多样性和真实性, 该方法可以有
效提高小样本分类方法的泛化性. 具体来说, 先对训练集中的基类进行聚类得到不同的簇, 然后从不同的簇中选
取任务进行 Mixup 以增加生成任务的多样性. 此外, 簇间任务 Mixup 策略可以减轻学习到与类别高度相关的伪判
别特征. 同时, 为了避免生成的任务与真实分布太偏离, 误导模型学习, 通过最小化生成任务与真实任务之间的
最大均值差异(MMD)来保证生成任务的真实性. 最后, 从理论上分析了为什么基于簇间任务 Mixup 的策略可以提
高模型的泛化性能. 多个数据集上的实验结果进一步证明了所提出的基于多样性和真实性任务扩充方法的有
效性.
关键词: 小样本学习; 元学习; 任务 Mixup; 多样性; 真实性
中图法分类号: TP18
中文引用格式: 刘鑫, 景丽萍, 于剑. 基于多样真实任务生成的鲁棒小样本分类方法. 软件学报, 2024, 35(4): 1587–1600.
http://www.jos.org.cn/1000-9825/7014.htm
英文引用格式: Liu X, Jing LP, Yu J. Diverse and Authentic Task Generation Method for Robust Few-shot Classification. Ruan Jian
Xue Bao/Journal of Software, 2024, 35(4): 1587−1600 (in Chinese). http://www.jos.org.cn/1000-9825/7014.htm
Diverse and Authentic Task Generation Method for Robust Few-shot Classification
1,2
1,2
1,2
LIU Xin , JING Li-Ping , YU Jian
1 (Beijing Key Lab of Traffic Data Analysis and Mining (Beijing Jiaotong University), Beijing 100044, China)
2 (School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)
∗ 基金项目: 中央高校基本科研业务费(2019JBZ110); 北京市自然基金(L211016); 国家自然科学基金(62176020); 国家重点研
发计划(2020AAA0106800)
本文由“绿色低碳机器学习研究与应用”专题特约编辑封举富教授、俞扬教授、刘淇教授推荐.
收稿时间: 2023-05-15; 修改时间: 2023-07-07; 采用时间: 2023-08-24; jos 在线出版时间: 2023-09-11
CNKI 网络首发时间: 2023-11-24