Page 11 - 《软件学报》2024年第4期
P. 11

刘鑫  等:  基于多样真实任务生成的鲁棒小样本分类方法                                                     1589


         充训练任务的分布.  虽然这些方法可以生成新的任务来扩充训练任务的分布,  但是这些方法并没有考虑生成
         任务与真实任务分布的关系,  难以保证生成任务的质量.
             为了保证在训练任务上学习到的元知识可以有效地迁移到测试任务中,  我们认为,  训练任务应该具备以
         下特性.
             1)   多样性.  生成的训练任务应该足够多样才能保证训练任务的分布包含未知的测试任务;
             2)   真实性.  生成的任务应该服从真实任务的分布,  偏离真实任务分布的训练任务容易误导模型学习,
                 从而导致负迁移.
             为此,  本文提出了一种基于多样真实任务扩充的鲁棒小样本分类方法(DATG).  该方法通过对已有少量任
         务进行 Mixup,  可以生成更多的训练任务帮助模型进行学习.  通过约束生成任务的多样性和真实性,  该方法
         可以有效提高小样本分类方法的泛化性.  具体来说,  我们先对训练集中的基类进行聚类得到不同的簇,  然后
         从不同的簇中选取任务进行 Mixup 以增加生成任务的多样性,  如图 1 所示.  此外,  基于簇间任务 Mixup 可以
         减轻学习到与类别高度相关的伪判别特征.  同时,  为了避免生成的任务与真实分布太偏离,  误导模型学习,  我
         们通过最小化生成任务与真实任务之间的最大均值差异(MMD)                      [26] 来保证生成任务的真实性.  最后,  我们从理
         论上分析了为什么基于簇间任务 Mixup 的策略可以提高模型的泛化性能.  多个数据集上的实验结果进一步证
         明了本文提出的基于多样性和真实性的任务扩充方法的有效性.











                              (a)  随机任务 Mixup                      (b)  簇间任务 Mixup
                                 图 1    随机任务 Mixup 和簇间任务 Mixup 的图示

             本文第 1 节介绍基于元学习小样本分类任务和 Mixup 技术的相关工作和研究现状.  第 2 节介绍本文所需
         的基础知识,  包括小样本分类任务的定义、基于元学习的小样本分类方法中代表性方法 MAML 和原型网络.
         第 3 节介绍本文提出的基于多样性和真实性的任务扩充模型.  第 4 节从理论上分析为什么基于簇间的任务
         Mixup 可以提高模型的泛化性能.  第 5 节通过对比实验验证所提模型的有效性.  最后一节总结全文.

         1    相关工作

         1.1   基于元学习的小样本分类方法

             小样本分类任务的难点是目标任务上有标签的训练样本太少,  直接在少量样本上学习容易导致模型出现
         过拟合现象,  进而导致模型的泛化能力下降.  为了解决这一问题,  最常用的方法是基于元学习的方法.
             基于元学习的小样本分类方法希望通过学着去学习的方式来进行学习,  通过在大量不同的小样本学习任
                                                                                        [6]
         务上学习解决这类任务的元知识,  在遇到新的任务时可以利用这些元知识进行快速学习.  MAML 是利用元
         学习思想进行小样本分类的算法,  它希望在不同任务上学习一个好的初始化权重,  在新任务上通过几步更新
         就可以达到最优. MAML 可以形式化为一个双层优化问题,  求解时需要求二阶 Hessian 矩阵,  因此存在着计算
                                                                               [7]
         缓慢、内存消耗大等问题.  为了解决这一问题,  后续有很多工作被提出.  比如 FOMAML 利用一阶导数近似、
                                               [9]
                [8]
         IMAML 使用隐式双层优化求解方法、Reptile 用基学习器和元学习器的向量差作为梯度、MT-net                            [10] 则通过
         将 MAML 的元学习器参数空间约简为由每一层的激活空间组成的子空间,  并在该子空间上进行快速学习,  进
         而加速整个学习过程.  为了找到更好的优化路径,  Meta-SGD               [11] 不仅学习好的初始化权重,  还同时学习最优的
   6   7   8   9   10   11   12   13   14   15   16