Page 16 - 《软件学报》2024年第4期
P. 16

1594                                                       软件学报  2024 年第 35 卷第 4 期

             9:        根据公式(3)生成新的任务
                                                       
             10:       根据公式(4)计算新生成任务与 { }         | | I  1  和{} | | I j= 1  的 MMD 距离和A MMD
                                                
                                                 ii=
                                                         j
             11:       计算 MAML 网络在新生成任务中查询样本上的损失函数A cl
             12:       根据A MMD +A cl ,  利用梯度下降算法更新 MAML 的内循环参数
             13:   end for
             14:         根据 MAML 在查询集上的损失A MMD ,  利用梯度下降算法更新其外循环参数
             15:   end for

         4    理论分析

             本节先给出基于随机任务 Mixup 的方法对于模型泛化界的影响,  然后在此基础上分析本文提出的基于簇
         间任务 Mixup 策略对模型泛化界的影响.  根据文献[25,38],  在以 MAML 为代表的基于梯度的元学习小样本分
         类方法中,  以两层神经网络和二分类为例,  利用线性组合生成的任务来替代原任务进行学习的泛化性能分析
         结果如下.  定理 1 和引理 1 的详细证明过程见文献[25].
             假设训练集中每个类的样本数目均为 N,  训练任务的数目为|I|.  对于每个任务 i ,  其损失定义为
                                    l(f MAML (x),y)=log(1+exp(f MAML (x)))−yf MAML (x),
                                         1
                MAML (x  ) fσ=    (Wx  ) : f=    h 1  , h 是样本 x i,k 第 1 层的隐表示.
         其中,  f f    , i k  i  , i k  i  , i k  , i k
                i
             根据公式(3)来生成新的任务,  新任务中的查询集表示为                  q , i cr  =  {H   , i cr , ql   ,Y q , i cr }.  为了方便,  我们省略查询集样
                                                                         | |I
                                              } ) | |I=
                                              | |I
         本上标 q.  在查询集上的经验损失为 A           t  ({ , i cr i= 1  −  1 ∑ | |I i= 1 A ( , i cr ) =  (N  | |)I  −  1 ∑∑ N k = 1 A ( f  i f (x i ,,k cr  ), y i ,,k cr ),   那
                                                                          1
                                                                         i=
         么可以得到如下引理.
                                                                                u
                                                                                     u 2
             引理 1.  依据公式(3)对任务进行线性组合生成新的任务,  假设l~Beta(a,β).  令ψ(u)=e /(1+e ) ,  N i,r 表示任
                                                                                       | | I
                                                                                      } ) 的二阶近
         务 i 中第 r 类样本的数目.  那么存在一个常数 c>0,  使得模型在新生成任务上的损失函数 A                    t ({ , i cr i= 1
         似如下:
                                      1  | | I  N       1  | | I  1  2  1  | | N  , ir  
                                                                   I
                          (l A  ⋅  { }) c+   | | I  ψ ∑∑  (h f 1  ) f ⋅  i     ∑ ∑  ∑∑ h 1  h 1  ,;k r   f     (5)
                                 1
                              i i=
                         t
                                     N I  1 k = 1  , i k i      || i= 1 2 r N  , i r  i= 1 k = 1  i ,;k r i      i
                                                        I
                                                              =
                                                               1
                                       || i=
                              a               a
         其中,  l  =   l [ ],  l ~  a  β +  Beta (a  1, ) β +  +  a  β +  Beta (β  1, ).
                                                         a +
                     l 
             引理 1 表明:  通过公式进行线性组合生成新任务,  并利用新任务替换原始任务训练模型,  相当于对f i 们增
         加了一项正则项约束.  为了进一步分析该正则项是如何提高模型的泛化性能的,  我们考虑公式中正则项
                                                               l
                     l
                                   
         的分布 ;  γ  =  {H f : [ (Hψ  l  f )]f Σf ≤  } γ ,  其中,  Σ    ∼ p ( )      [HH l ], µ =     =     [H l ].   假设对来自任务分布
         中的每个任务~p()满足下面的条件:
                                         rank Σ  ( )≤  R ,  Σ   †/2 µ      ≤ U             (6)
                                                 l
                †
         其中,  Σ 是Σ的广义逆.  在此基础上,  我们假设 H 的分布对于一些ρ∈(0,1/2]是ρ-retentive.  也就是说,  对任意
                                                   2
                                 2
         非零向量 v∈     d , [ [ (vHψ      l )]] ≥  ρ  ⋅ψ  min{1, [(vH    l ) ]} .  这一假设在权重的 l 2 范数是有界的情况下是可以满
         足的.  模型在任务上的经验风险和期望风险分别定义为                    ({ } ), i i=  | |I  1  �  =    i ∼  p   ( )   ( XY i  i   [ ( fA  i f (XY i
                                                                                      ), )] ,  在通过
                                                                                     i
                                                                           , )∼
                                                                          i
         线性组合对任务扩充得到的训练和期望风险之间的泛化误差界如下.
             定理 1.  假设 X i ,  Y i 和f的谱范数是有界的且假设公式(6)成立,  那么存在一些常数 A 1 ,A 2 ,A 3 >0,  对所有的
          f ∈  , δ ∈;  (0,1) ,  至少以 1−δ的概率,  以下泛化界成立:
             γ
                                       γ  1/ 4    γ      1/ 2     R U  R U    +  log(| | / )I  δ  log(1/ )δ
                                                    +
                |  ( { } ) −   | | I    |≤  A  max     ,     +      +  A  +  A     (7)
                               1
                     i i=
                       1
                                      ρ    ρ             N  ||I       2  N  3  ||I
             根据上面的引理和定理可知:  基于随机任务 Mixup 的方法主要是通过在原来损失函数的基础上加了一项
   11   12   13   14   15   16   17   18   19   20   21