Page 284 - 《软件学报》2024年第4期
P. 284
1862 软件学报 2024 年第 35 卷第 4 期
Abstract: Nowadays, deep neural networks (DNNs) have been widely used in various fields. However, research has shown that DNNs are
vulnerable to attacks of adversarial examples (AEs), which seriously threaten the development and application of DNNs. Most of the
existing adversarial defense methods need to sacrifice part of the original classification accuracy to obtain defense capability and strongly
rely on the knowledge provided by the generated AEs, so they cannot balance the effectiveness and efficiency of defense. Therefore, based
on manifold learning, this study proposes an origin hypothesis of AEs in attackable space from the feature space perspective and a trap-
type ensemble adversarial defense network (Trap-Net). Trap-Net adds trap data to the training data based on the original model and uses
the trap-type smoothing loss function to establish the seducing relationship between the target data and trap data, so as to generate trap-
type networks. In order to address the problem that most adversarial defense methods sacrifice original classification accuracy, ensemble
learning is used to ensemble multiple trap networks, so as to expand attackable target space defined by trap labels in the feature space and
reduce the loss of the original classification accuracy. Finally, Trap-Net determines whether the input data are AEs by detecting whether
the data hit the attackable target space. Experiments on MNIST, K-MNIST, F-MNIST, CIFAR-10, and CIFAR-100 datasets show that Trap-
Net has strong defense generalization of AEs without sacrificing the classification accuracy of clean samples, and the results of
experiments validate the adversarial origin hypothesis in attackable space. In the low-perturbation white-box attack scenario, Trap-Net
achieves a detection rate of more than 85% for AEs. In the high-perturbation white-box attack and black-box attack scenarios, Trap-Net
has a detection rate of almost 100% for AEs. Compared with other detection methods of AEs, Trap-Net is highly effective against white-
box and black-box adversarial attacks, and it provides an efficient robustness optimization method for DNNs in adversarial environments.
Key words: deep neural network (DNN); adversarial example; ensemble learning; adversarial defense; robustness optimization
深度神经网络 (deep neural network, DNN) 作为人工智能最杰出的代表, 已被应用于图像分类、目标检测、语
言识别等各个领域 [1−3] , 并且在这些领域展现出强大的性能. 然而研究表明, DNN 极易受到对抗样本的攻击. 对抗
样本通过向干净样本添加特殊对抗攻击算法所生成的微小对抗扰动, 可以在不影响人类正常视觉辨别的同时使
DNN 产生分类错误, 是 DNN 安全领域的一大盲点. 因而提高 DNN 对对抗样本的防御能力, 提高 DNN 的对抗鲁
棒性, 对 DNN 的后续研究和应用具有重大意义.
对抗样本的成因是对抗防御的一个重要前提. Szegedy 等人 [4] 认为训练数据不足导致 DNN 只能学习到目标
数据流形的局部区域, 因而对抗样本所存在的数据流形的低概率区域未被模型正确划分是对抗样本存在的主要原
因; Goodfellow 等人 [5] 认为 DNN 的脆弱性是由于模型在高维空间中存在的局部线性特征所导致; Gilmer 等人 [6,7]
认为 DNN 模型易受对抗样本攻击的主要原因在于目标数据流形的复杂高维几何结构. 综上, 本文认为对抗样本
的成因, 关键在于目标数据流形与 DNN 特征空间的维度差异和训练数据本身所提供的特征信息不足而导致
DNN 的特征空间中暗藏大量对抗样本. 因此本文基于流形学习, 聚焦 DNN 的特征空间, 提出了可攻击空间对抗成
因假设: DNN 通过利用训练数据所提供的信息对数据特征进行提取和分类, 以在广袤的 DNN 特征空间中定义对
应的目标数据流形. 然而因为维度差异及空间不对等和缺乏特征信息等原因, 目标数据流形仅仅占据 DNN 特征
空间中很少一部分, 而余留的未被训练数据所定义的广袤特征空间则是可能暗藏对抗样本的可攻击空间. 我们定
义目标数据流形所占据的部分特征空间为 DNN 在具体事务中的特征敏感空间. 将可攻击空间中未被目标数据所
影响的特征敏感空间和特征敏感空间之外的特征空间定义为背景可攻击空间. 将定义模糊的, 穿插在整体目标数
据集流形之中的特征敏感空间定义为邻近可攻击空间.
从可攻击空间对抗成因的角度分析, 对抗训练作为目前最有效的对抗防御方法, 其通过向训练数据中增添对
抗样本进行重训练对未定义的可攻击空间进行定义. 然而, Moosavi-Dezfooli 等人 [8] 指出, 无论添加多少对抗样本,
都存在新的对抗攻击样本可以再次欺骗网络. 这是因为对抗训练本身并没有向 DNN 中添加新的数据特征信息,
且其对抗防御的有效性依赖于现有的对抗样本所提供的信息, 所以在对抗防御泛化性方面有很大的缺陷. 我们根
据可攻击空间假设, 提出一种新的对抗防御思路: 将暗藏对抗样本的可攻击空间标记而作为靶标, DNN 即可通过
判定输入数据是否命中该靶标可攻击空间以区分输入数据是否为对抗样本.
综上, 为了提高深度神经网络的鲁棒性和对抗防御的泛化性, 本文基于可攻击空间对抗成因假设, 提出陷阱式
集成对抗防御网络 (trap ensemble neural network against adversarial examples, Trap-Net). Trap-Net 通过向训练数据
中添加目标数据类别之外的陷阱数据为网络模型提供更多的数据特征信息, 并使用这些新的数据特征为目标训练
集数据未定义的可攻击空间赋予确切的身份类别, 从而消除未被模型认知而暗藏对抗样本的 DNN 特征空间. 同