Page 216 - 《软件学报》2025年第5期
P. 216

2116                                                       软件学报  2025  年第  36  卷第  5  期


                 友好对抗训练方法; Sharma 等人      [30] 则利用健壮性分类器     [31] 筛选对抗训练输入的样本, 合理地平衡了训练模型的
                 泛化性和稳健性.
                    我们发现样本的标签信息在深度学习和对抗学习任务中的作用过于单一. 对于有监督的深度学习任务, 标签
                 信息最主要用于计算损失函数来控制模型参数更新的方向. 在对抗学习任务中, 标签信息仅用于生成噪声并判断
                 对抗样本是否能够误导模型判断. 虽然现有的一些方法尝试从标签角度提高模型的泛化性或健壮性, 如                                 MixUp [32]
                 尝试将数据集中任意两个图像按比例混合生成新的图像, 同时将它们的标签按相同比例混合成新图像的软标签来
                 训练更具有泛化性的模型, 知识蒸馏           [33] 则先训练教师网络得到软标签, 再使用软标签来训练学生网络进而获得具
                 有健壮性的最终模型. 然而, 这些方法仅重视优化网络模型的单一性质                     (泛化性或健壮性), 很少有研究从标签角度
                 对模型的泛化性和健壮性进行权衡. 那么, 能否将对抗样本的错误标签用于改进模型的健壮性?能否在训练健壮深
                 度网络模型时利用干净样本的正确标签保证模型的泛化性?
                    为了解决这一问题, 本文从正则化防御的方式出发, 提出标签筛选权重参数正则化方法, 通过干净样本和其对
                 抗样本的标签信息分别筛选出模型中决定该样本分类结果的参数, 并将它们作为正则化项进行优化, 前者用来保
                 证模型的泛化性, 后者则用来提高模型的健壮性. 本文在                 MNIST、CIFAR-10  和  CIFAR-100  这  3  个经典数据集上
                 做了充分的实验和分析, 验证了该方法的有效性. 本文的创新点主要包括以下                        3  个方面.
                    (1) 提出了面向卷积神经网络泛化性和健壮性权衡的标签筛选方法, 从理论出发解释                          CNN  模型预测过程并分
                 析本文设计的正则项的合理性, 证明了标签信息除了能够控制模型权重参数更新的方向外, 还能用于筛选出模型
                 中对预测样本更具重要性的权重参数并对它们针对性地更新, 增强了标签信息在模型训练中的作用.
                    (2) 利用标签信息统一正则化和数据增强, 不仅使用干净样本的正确分类标签, 还考虑了对抗样本的错误分类
                 标签, 通过两种标签的联合作用, 弥补了卷积神经网络训练时泛化性和健壮性无法权衡的问题, 有效地平衡了两者
                 此消彼长的关系.
                    (3) 受机器学习中没有免费午餐         (no free lunch, NFL) 定理的启发, 本文对所提方法涉及的参数进行了一系列
                 的消融实验, 观察并分析了在参数变化时模型泛化性和健壮性的表现, 使得该方法可以通过简单地调参来应对不
                 同的学习任务.
                    本文第   1  节详细介绍深度学习和对抗学习的概念及相关工作. 第                2  节通过数理推导分析标签筛选的权重参数
                 对模型预测结果的影响并给出本文所提方法的具体思想. 第                    3  节通过实验验证方法的有效性. 第         4  节通过消融实
                 验分析所提方法取得成功的内在原因. 第             5  节得到相应的结论及展望.

                 1   相关概念及工作

                    卷积神经网络在多层感知机的基础上引入了卷积操作                    [1] . 如图  2  所示, CNN  利用卷积核的方式, 将原先感知
                 机中每一层神经元之间的全连接改成局部连接, 使输出成为能够表征上一层局部感受野的特征图. CNN                                在每个卷
                 积层中使用尺寸相同但参数初始化不同的卷积核提取输入中不同的特征, 而不同的卷积层则采用不同大小的卷积
                 核控制特征图所包含的信息量. CNN          通过多层卷积后的特征图能够更好地表示图像的局部抽象信息, 从而在图像
                 识别领域表现优异. 同时, 每一层特征图中神经元的取值共享并依赖于卷积核的参数, 网络仅在最后使用全连接层
                 输出与标签同维度的向量, 从而解决了神经网络参数量极多的缺点, 大大降低了模型复杂度和训练的时间开销, 使
                 得  CNN  能够处理更加复杂的图像分类和识别任务.
                    在图  2  中, CIFAR-10  数据集中一张  32×32  的输入图像被拉伸成      1 024  维的向量, 经过卷积和全连接的操作后,
                 以  10  维向量的形式输出, 对应于      CIFAR-10  的  10  个分类预测概率, 其中最大值所在的索引便是网络模型对该图
                 像的预测结果     (为方便解释及之后的证明, 本文省略了            CNN  中池化层的相关概念). 因此, CNN       从本质上可以被理
                 解为一个将    d  维输入向量   x  转变为  k 维输出向量的映射函数        F(x;θ) , 其中   为网络模型的参数, 该映射函数可以
                                                                           θ
                                 [               ]
                 详细表示为    F(x;θ) = f 1 (x), f 2 (x),..., f k (x)  , 函数中的   f n (x) 可被认为是模型预测输入图像为第  n  个类的概率值, 为
                      k ∑
                                     F(x;θ) 中每一项在最终被输出前都会经过          Softmax  层进行归一化, 即:
                 满足     f n (x) = 1 的要求,

                     n=1
   211   212   213   214   215   216   217   218   219   220   221