Page 219 - 《软件学报》2025年第5期
P. 219

王益民 等: 面向卷积神经网络泛化性和健壮性权衡的标签筛选方法                                                 2119


                 将被用于与所提方法进行比较.

                 2   标签筛选权重参数分析

                    在该部分中我们首先对卷积神经网络模型预测过程进行解释, 并以详细的公式推导展示这一过程, 之后对模
                 型的泛化性和健壮性进一步分析, 在此基础上通过理论证明标签筛选权重参数方法的合理性.
                    在  CNN  的卷积操作中, 卷积核在图像上滑动并对覆盖区域的像素值加权求和, 其本质上可以看作是对输入向
                 量的一次矩阵变换, 以图       2  中  32×32  的输入图像和  2×2  的卷积核为例, 卷积核将进行      900  次滑动, 每次滑动时卷积
                 参数  c 1 –c 4 与覆盖图像部分的像素值加权求和, 最后输出          30×30  的特征图, 整个过程可视为      1 024  维输入向量  x 经
                 过     900×1024  的稀疏矩阵  C  变换为一个  900  维的向量  z , 该操作用数学形式表达如下:
                                                  0  ...       0  ...  0  0        
                                           c 1  c 2     c 3  c 4             0  x 1 
                                                                                   
                                                                                   
                                                                                   
                                                                                   
                                           0        ...  0        ...  0  0         
                                          
                                                                                
                                              c 1  c 2      c 3  c 4         0  x 2 
                                                                                   
                                                                                   
                                                                                 .  
                                              .             .            .         
                                       T     .             .             .      .   
                                                                                
                                  z = Cx =     .             .             .     .               (12)
                                                                                   
                                                                                   
                                                                                   
                                                                                   
                                                                                   
                                            0  0  0  ...      0  ...               
                                                        c 1  c 2      c 3  c 4  0  x d−1 
                                                                                
                                                                                   
                                                                                   
                                                                                   
                                                                                   
                                           0   0   0  ...  0  c 1  c 2  ...  0  c 3  c 4  x d
                 其中, 稀疏矩阵    C  由  2×2  卷积核参数  c 1 –c 4 生成  (池化层的操作同样可被视为矩阵变换), 因此卷积操作仍为线性
                 变换. 为使得输出关于输入非线性, CNN           在每层卷积后引入激活函数          σ(·) 对结果进行非线性变换, 本文所有模型
                 训练过程中皆采用分段线性激活函数             ReLU, 即  σ(·) = ReLU(·) = max(·; 0) . 若定义判断函数  1(·) , 当括号内条件成
                 立则为   1, 反之为  0, 激活过程  σ(z) 可表示为一个对角矩阵       D  变换, 其具体表达形式如下:

                                                                           T
                                        σ(z) = diag(1(z 1 > 0),1(z 2 > 0),...,1(z 900 > 0)) z = Dz T  (13)
                    定义   1.   θ s =D s C s  为第  s 层的卷积激活参数矩阵, 同时假设输入  x 经过模型   l 层卷积, t 层全连接后得到输出
                 F(x;θ) W =W t ...W 1  为  t 层全连接矩阵的乘积, 则由公式   (12) 和公式  (13) 可将输出  F(x;θ)  表示为:
                       ,

                              F(x;θ) = Softmax((W t ···W 1 )(D l C 1 )(D l−1 C l−1 )...(D 1 C 1 x)) = Softmax(Wθ l θ l−1 ...θ 1 x)  (14)
                                                            W ∈ R k×h l ,...,θ s ∈ R h s ×h s−1 ,...,θ 1 ∈ R h 1 ×d  . 进一步矩阵相乘可
                 其中, 每一个矩阵的列数与后一个矩阵的行数一致, 即
                 知, CNN  模型的映射函数可被视为将         d  维输入转为   k 维输出的矩阵变换, 即:

                                                                   T
                                                    F(x; θ) = Softmax(V x)                           (15)
                                  T                                            ∂F(x;θ)/∂x .
                 其中,    V =[v 1 ,v 2 ,...,v k ]  为模型的权重参数矩阵, 也是输出关于输入的雅可比矩阵
                    对于分类任务中的第        n  类, 在权重参数矩阵    V  中,   v n ∈ R  为该类别对应的权重参数向量,     v ·x 则为输入图像
                                                                                          T
                                                                d
                                                                                          n
                 经过模型后的该类别的预测值, 因此可将式             (1) 改写为:

                                                             /
                                                               k ∑
                                                                  v T
                                                     f n (x) = e v T ·x  e i ·x                      (16)
                                                            n
                                                               i=1
                    由于每个类别的输出值经过           Softmax  层归一化后的分母项一致, 最终的输出         F(x;θ) 中样本为正确类     ˆ n 的预测
                                                v ˆn  决定. 因此优化分类对应权重参数来改变干净样本或对抗样本的预测
                 概率值仅由其分子项中的权重参数向量
                 结果是一种在模型泛化性和健壮性之间进行权衡的可行策略.

                 2.1   干净样本标签筛选权重参数正则化
                    假设一个具有高泛化性的          CNN  模型, 对于数据集中任意样本        x, 该模型映射函数的结果都满足          argmaxF(x) =
                                  F(x;θ) 中, 对于任意非正确类    n       f ˆn (x) > f n (x) , 根据公式  (16) 可得:
                 ˆ n , 即在样本输出结果                           都满足

                                                     /          /
                                                       k ∑        k ∑
                                                         v T
                                                   v T
                                                                     v T
                                                  e ˆn ·x  e i ·x  > e v T ·x  e i ·x                (17)
                                                               n
                                                       i=1        i=1
                    由于以自然常数       e 为底的指数函数单调递增且恒为正值, 该不等式两边的分母项相等, 同时约去分母项并对
                 分子项进行简化可得到:
   214   215   216   217   218   219   220   221   222   223   224