Page 215 - 《软件学报》2025年第5期

P. 215

王益民等: 面向卷积神经网络泛化性和健壮性权衡的标签筛选方法 2115

achieve a balance between model generalization and robustness. Experiments and analysis on the MNIST, CIFAR-10, and CIFAR-100
datasets demonstrate that the proposed method achieves good training results.
Key words: convolutional neural network (CNN); adversarial learning; label information; regularization

卷积神经网络 (convolutional neural network, CNN) 自提出起, 便在图像识别和分类领域展现出优异的效果,
[1]
深层和复杂的网络结构 [2−6] 也被提出以应对更加困难的图像处理任务. 然而, CNN 的健壮性已被证明具有一定的
缺陷 [7,8] , 即训练好的模型极易受到对抗样本的攻击. 具体而言, 在图像上添加一个轻微的扰动噪声生成对抗样本,
该样本不会被人眼识别错误, 但可以欺骗泛化性能优秀的模型做出错误的判断. 现有的一些对抗攻击算法可以根
据不同的需求来生成对抗样本 [9] , 如图 1 所示, 可以分别通过快速梯度符号法 (fast gradient sign method, FGSM) [10] 、
投影梯度下降法 (projected gradient descent, PGD) [11] 、DeepFool [12] 和 C&W [13] 生成和干净样本相对应的对抗样本,
并使模型给出错误的预测结果. 其中, FGSM 能够迅速地生成噪声, 而 PGD、DeepFool 和 C&W 则可以生成更加
细微的噪声. 对抗样本的存在给神经网络的理论研究和现实应用 [14,15] 带来了挑战, 设计防御策略保证模型的健壮
性已经成为 CNN 训练阶段必须考虑的因素之一.

FGSM PGD DeepFool C&W

9 1 automobile Bird

7 8 Airplane Cat
(a) MNIST (b) CIFAR-10
图 1 MNIST 和 CIFAR-10 数据集干净样本和不同攻击下的对抗样本的预测结果

现有的对抗防御算法大多分为正则化和数据增强两种, 从本质上来看, 两者都是为了防止模型对已知数据过
度拟合和对未知数据缺乏泛化能力. 正则化技术通过在目标函数中添加新的正则项惩罚输出对于输入的变化程
度, 如梯度正则化 [16] 、雅可比正则化 [17,18] 和曲率正则化 [19] 都在一定程度上使网络输出不受对抗扰动的影响. 数据
增强 [20,21] 则尝试在将图像输入到网络模型前应用图像转换技术改变数据集的复杂度, 从而使模型获得健壮性, 对
抗训练 (adversarial training, AT) [10,11] 使用精心设计和挑选的对抗样本进行训练 [22−24] 可以获得更加健壮的模型, 也
是目前最有效的数据增强防御策略.
然而高泛化性模型和高健壮性模型的训练目标是不同的, 所以 CNN 在获得对抗防御能力的同时难以保证其
对干净样本的预测准确率 [25] , 因此设计一个兼顾泛化性能的防御策略成为对抗学习领域的一个研究热点. Zhang
等人 [26] 从理论层面上进行分析并设计了一种新的防御方法 TRADES (tradeoff-inspired adversarial defense via
surrogate-loss minimization), 该方法利用正则化方式对模型泛化性和健壮性进行权衡. Co 等人 [27] 提出的雅可比集
成法将雅可比正则化与模型集成技术结合起来, 在提高模型对扰动噪声的健壮性的同时也在一定程度上保证了模
型的泛化性. 在对抗训练方面, 额外添加对抗样本进行训练大大提高了训练任务的时间开销, 而仅使用对抗样本训
练会忽视干净样本的重要性, 导致模型泛化性下降. Grabinski 等人 [28] 实证分析了各种对抗训练模型, 探讨了不同
的对抗训练策略对模型泛化性能的一系列影响. Zhang 等人 [29] 重新审视了各类对抗样本的噪声强度, 进而提出了

210 211 212 213 214 215 216 217 218 219 220