Page 16 - 《软件学报》2024年第4期
P. 16
1594 软件学报 2024 年第 35 卷第 4 期
9: 根据公式(3)生成新的任务
10: 根据公式(4)计算新生成任务与 { } | | I 1 和{} | | I j= 1 的 MMD 距离和A MMD
ii=
j
11: 计算 MAML 网络在新生成任务中查询样本上的损失函数A cl
12: 根据A MMD +A cl , 利用梯度下降算法更新 MAML 的内循环参数
13: end for
14: 根据 MAML 在查询集上的损失A MMD , 利用梯度下降算法更新其外循环参数
15: end for
4 理论分析
本节先给出基于随机任务 Mixup 的方法对于模型泛化界的影响, 然后在此基础上分析本文提出的基于簇
间任务 Mixup 策略对模型泛化界的影响. 根据文献[25,38], 在以 MAML 为代表的基于梯度的元学习小样本分
类方法中, 以两层神经网络和二分类为例, 利用线性组合生成的任务来替代原任务进行学习的泛化性能分析
结果如下. 定理 1 和引理 1 的详细证明过程见文献[25].
假设训练集中每个类的样本数目均为 N, 训练任务的数目为|I|. 对于每个任务 i , 其损失定义为
l(f MAML (x),y)=log(1+exp(f MAML (x)))−yf MAML (x),
1
MAML (x ) fσ= (Wx ) : f= h 1 , h 是样本 x i,k 第 1 层的隐表示.
其中, f f , i k i , i k i , i k , i k
i
根据公式(3)来生成新的任务, 新任务中的查询集表示为 q , i cr = {H , i cr , ql ,Y q , i cr }. 为了方便, 我们省略查询集样
| |I
} ) | |I=
| |I
本上标 q. 在查询集上的经验损失为 A t ({ , i cr i= 1 − 1 ∑ | |I i= 1 A ( , i cr ) = (N | |)I − 1 ∑∑ N k = 1 A ( f i f (x i ,,k cr ), y i ,,k cr ), 那
1
i=
么可以得到如下引理.
u
u 2
引理 1. 依据公式(3)对任务进行线性组合生成新的任务, 假设l~Beta(a,β). 令ψ(u)=e /(1+e ) , N i,r 表示任
| | I
} ) 的二阶近
务 i 中第 r 类样本的数目. 那么存在一个常数 c>0, 使得模型在新生成任务上的损失函数 A t ({ , i cr i= 1
似如下:
1 | | I N 1 | | I 1 2 1 | | N , ir
I
(l A ⋅ { }) c+ | | I ψ ∑∑ (h f 1 ) f ⋅ i ∑ ∑ ∑∑ h 1 h 1 ,;k r f (5)
1
i i=
t
N I 1 k = 1 , i k i || i= 1 2 r N , i r i= 1 k = 1 i ,;k r i i
I
=
1
|| i=
a a
其中, l = l [ ], l ~ a β + Beta (a 1, ) β + + a β + Beta (β 1, ).
a +
l
引理 1 表明: 通过公式进行线性组合生成新任务, 并利用新任务替换原始任务训练模型, 相当于对f i 们增
加了一项正则项约束. 为了进一步分析该正则项是如何提高模型的泛化性能的, 我们考虑公式中正则项
l
l
的分布 ; γ = {H f : [ (Hψ l f )]f Σf ≤ } γ , 其中, Σ ∼ p ( ) [HH l ], µ = = [H l ]. 假设对来自任务分布
中的每个任务~p()满足下面的条件:
rank Σ ( )≤ R , Σ †/2 µ ≤ U (6)
l
†
其中, Σ 是Σ的广义逆. 在此基础上, 我们假设 H 的分布对于一些ρ∈(0,1/2]是ρ-retentive. 也就是说, 对任意
2
2
非零向量 v∈ d , [ [ (vHψ l )]] ≥ ρ ⋅ψ min{1, [(vH l ) ]} . 这一假设在权重的 l 2 范数是有界的情况下是可以满
足的. 模型在任务上的经验风险和期望风险分别定义为 ({ } ), i i= | |I 1 � = i ∼ p ( ) ( XY i i [ ( fA i f (XY i
), )] , 在通过
i
, )∼
i
线性组合对任务扩充得到的训练和期望风险之间的泛化误差界如下.
定理 1. 假设 X i , Y i 和f的谱范数是有界的且假设公式(6)成立, 那么存在一些常数 A 1 ,A 2 ,A 3 >0, 对所有的
f ∈ , δ ∈; (0,1) , 至少以 1−δ的概率, 以下泛化界成立:
γ
γ 1/ 4 γ 1/ 2 R U R U + log(| | / )I δ log(1/ )δ
+
| ( { } ) − | | I |≤ A max , + + A + A (7)
1
i i=
1
ρ ρ N ||I 2 N 3 ||I
根据上面的引理和定理可知: 基于随机任务 Mixup 的方法主要是通过在原来损失函数的基础上加了一项