Page 17 - 《软件学报》2024年第4期
P. 17
刘鑫 等: 基于多样真实任务生成的鲁棒小样本分类方法 1595
I
1 | | I N 1 | | I 1 2 1 | | N , ir
正则项 c ψ ∑∑ (h f 1 ) f ⋅ i ∑ ∑ ∑∑ h 1 ,; k r i k h 1 f 来提高模型的泛化性能, 该正则项中的 f Σf
I
N I 1 k = 1 , i k i || i= 1 2 r N , i r i= 1 k = 1 i ,;r i
=
1
|| i=
l
: [ (Hψ
满足 ; γ = {H f l f )]f Σf ≤ γ }, 基于随机任务 Mixup 的方法通过对正则项进行优化, 得到一个更小
的γ, 进而使公式(7)中的泛化误差界更紧致.
与没有任务 Mixup 策略、直接用原始任务进行训练的方法相比, 本文可以通过 Mixup 的策略增加数据的
方差, 减小γ, 提高模型的泛化性. 与随机任务 Mixup 策略相比, 本文主要通过先聚类再从不同簇随机选取任
务进行 Mixup, 类似于从所有任务中通过分层采样的方式进行任务采样, 通过分层采样和随机采样对整体分
布估计方差比较的证明如下.
假设随机变量 X 的数学期望µ, 存在离散型随机变量 Y, p j =P(Y=y j ), j=1,2,3,…,m, 在 Y=y j 条件下, 可以从 X
的条件分布抽样,则:
m
X
( ) = | )} = ∑ [XY = y j ]p (8)
|
{ (XY
j= 1 j
1 N j
,
如果在 Y=y j 条件下生成的 N j =Np j 个抽样值设为 X i () j ,i = 1,2,...,N 则可以用 N ∑ 1 X i ()j 估计[X|Y=y j ], 估
j
i=
m 1 N j 1 m Np j j
计µ为 ˆ µ = ∑ ∑ X i ()j p = ∑∑ X i ()j , 估计方差为
j
j= 1 N j i= 1 N j= 1 i= 1
1 m 1 m 1 1
|
Var ˆ ( ) µ = 2 ∑ Np Var [X Y = y ] = ∑ Var [X Y = y ]p = {Var X Y Var X (9)
|
[ ]
[
| ]}≤
�
N j= 1 j j N j= 1 j j N N
可以看出, 分层采样比直接用平均值法估计真实分布的方差小, 也就是说比用随机采样估计的方差少.
由于分层采样对于整体分布的估计优于随机采样, 因此可以减少对采样数目的需求. 在相同采样任务下提高
模型的泛化性能.
5 实验分析
5.1 数据集
我们在小样本分类任务中使用最广泛的自然图像数据集和数据匮乏的医学领域的数据集来验证方法, 数
据集具体介绍如下.
1) miniImageNet-S [39] : 该数据 集 来自 于 小样本分类中最常用的标准数据集 miniImageNet [40] .
miniImageNet 包含 60 000 张的三通道彩色图像, 共有 100 个类别, 每个类别 600 样本. 该数据集最
广泛采用的划分方式为训练集、验证集以及测试集, 各包含类 64, 16 以及 20 个类. miniImageNet-S
是通过从 miniImageNet 中选取 12 个训练类别构造元训练类别得到的, 其目的是通过降低训练类别
数目来降低元训练任务的数量;
2) ISCI [41] : 是一个医学影响数据集. 根据文献[25], 我们选择“ISIC 2018: 皮肤病变分析到黑色素瘤检
测”调整中的任务 3. 为 10 015 张医学图像分类, 类别分别为: 痣、皮肤纤维瘤、黑色素瘤、色素鲍
恩氏病、良性角化病、基底细胞癌、血管性. 我们使用了样本数量最多的 4 个类别作为元训练类别,
其余 3 个类别作为元测试类别. 由于该数据集类别较少, 我们在该数据集上进行的是 2 分类任务;
3) DermNet-S [25] : 是在公共数据集 DermNet Skin Disease Atlas 基础上构造的一个数据集. 原始数据集
中包括来自于 625 个细粒度类中的 22 000 多张图片. 文献[25]关注样本数不少于 30 个类的类别, 筛
选出 203 个类. 该数据集的类服从长尾分布, 在使用时, 仅用前 30 个类进行元训练, 后 53 个类进行
测试;
4) Tabular Murris [42] : 是基于已有的 Tabula Muris 数据集构造的一个新的单细胞转录组数据集. 原始的
Tabula Muris 数据集包含了从小鼠模型生物的 23 个器官中收集的 124 种细胞类型的 105 960 个细胞.