Page 304 - 《软件学报》2024年第4期

P. 304

1882 软件学报 2024 年第 35 卷第 4 期

中, Strauss 等人 [35] 证明了通过集成多个不同初始化参数的 DNN, 或集成多个不同网络结构的 DNN, 可有效提升原
目标数据的测试精度并提升 DNN 的鲁棒性. Abbasi 等人 [37] 发现数据的不同类别在对抗攻击中错误分类为其他类
别的概率不同, 于是通过利用 FGSM 计算出网络模型对应的混淆矩阵, 并根据该混淆矩阵进行数据集的分类. 通
过在不同的数据集训练 DNN 并最终组成鲁棒的集成网络. 结果表明, 这种方法可以对输入样本进行干净样本和
对抗样本的区分, 从输入端提升网络模型的鲁棒性. Pang 等人 [27] 通过定义集成网络中子网络的多样性, 创建了一
种类似于标签平滑的集成网络训练方式. 该方法通过衡量并提高各个子网络中非正确类别输出向量的正交程度,
以衡量并提高各个集成网络中子网络所提取和关注的特征信息的多样性, 最终通过提升集成网络整体所学习的特
征信息以提升整体的鲁棒性. 然而, 对抗集成网络防御具有很大的防御效力上限. 本文提出的 Trap-Net 防御方法
在不损失原目标分类精度的同时, 以对抗集成网络防御的思想, 通过扩大被陷阱类别定义的靶标可攻击空间, 从而
进一步提高对抗样本的防御效力.
5 总结与展望

本文基于 DNN 的特征空间, 提出可攻击空间对抗成因假设. 可攻击空间是 DNN 特征空间中有别于目标数据
流形的其他特征空间区域. 根据可攻击空间与目标数据流形的关系将可攻击空间分为邻近可攻击空间与背景可攻
击空间. 其中, 邻近可攻击空间是隐藏有目标攻击对抗样本的特征空间, 而背景可攻击空间是暗藏无目标攻击区域
和垃圾样本的特征空间. 基于可攻击空间对抗成因假设, 本文提出陷阱式对抗防御思维. 陷阱式对抗防御思维通过
赋予 DNN 更多的数据特征信息和对输入样本怀疑的权力以对原本未定义的可攻击空间进行标记, 从而消除暗藏
对抗样本的未定义特征空间. 理论上, 在不影响原分类精度的基础上, 命中该靶标可攻击空间的输入样本为对抗样
本. 在模型实现方面, 本文提出陷阱式集成对抗防御网络 Trap-Net 用于对抗防御. Trap-Net 在 DNN 的训练阶段添
加陷阱数据集, 并通过陷阱式平滑损失函数建立原目标数据和陷阱数据间的特殊诱导关系以诱使攻击算法所生成
的对抗样本偏向靶标可攻击空间. 实验验证了 Trap-Net 通过集成网络的方式在不影响原目标数据分类精度的同
时, 通过扩大靶标可攻击空间的空间大小以提高整体陷阱式集成网络的防御效力. Trap-Net 对白盒和黑盒对抗攻
击都能进行有效的防御. 遗憾的是, Trap-Net 在面对有目标攻击时, 其防御有效性呈“V”型结构. 且对抗训练无法在
保持目标数据流形与陷阱数据之间诱导关系的同时优化目标数据的流形分布, 这也是我们未来的研究方向之一.

References:
[1] Huang G, Liu Z, Van Der Maaten L, Weinberger KQ. Densely connected convolutional networks. In: Proc. of the 2017 IEEE Conf. on
Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017. 2261–2269. [doi: 10.1109/CVPR.2017.243]
[2] Ren SQ, He KM, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Trans. on
Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. [doi: 10.1109/TPAMI.2016.2577031]
[3] Zhang Y, Pezeshki M, Brakel P, Zhang SZ, Laurent C, Bengio Y, Courville A. Towards end-to-end speech recognition with deep
convolutional neural networks. In: Proc. of the 2016 Interspeech. ISCA, 2016. 410–414. [doi: 10.21437/Interspeech.2016-1446]
[4] Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow I, Fergus R. Intriguing properties of neural networks. In: Proc. of the
2nd Int’l Conf. on Learning Representations (ICLR). Banff: OpenReview.net, 2014
[5] Goodfellow IJ, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. In: Proc. of the 3rd Int’l Conf. on Learning Repre-
sentations (ICLR). San Diego: ICLR, 2015.
[6] Gilmer J, Metz L, Faghri F, Schoenholz S, Raghu M, Wattenberg M, Goodfellow I. Adversarial spheres. In: Proc. of the 6th Int’l Conf. on
Learning Representations (ICLR). Vancouver: OpenReview.net, 2018.
[7] Gilmer J, Metz L, Faghri F, Schoenholz SS, Raghu M, Wattenberg M, Goodfellow I. The relationship between high-dimensional
geometry and adversarial examples. arXiv:1801.02774, 2018.
[8] Moosavi-Dezfooli SM, Fawzi A, Fawzi O, Frossard P. Universal adversarial perturbations. In: Proc. of the 2017 IEEE Conf. on Computer
Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017. 86–94. [doi: 10.1109/CVPR.2017.17]
[9] Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z. Rethinking the inception architecture for computer vision. In: Proc. of the 2016
IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016. 2818–2826. [doi: 10.1109/CVPR.2016.308]
[10] LeCun Y, Bengio Y. Convolutional networks for images, speech, and time-series. The Handbook of Brain Theory and Neural Networks.

299 300 301 302 303 304 305 306 307 308 309