Page 297 - 《软件学报》2024年第4期
P. 297

孙家泽 等: 基于可攻击空间假设的陷阱式集成对抗防御网络                                                    1875


                 攻击的对抗样本并不隶属于目标模型的目标数据流形之内, 即能有效攻击传统网络模型. 而在探测逻辑判断后,
                 Trap-Net 的准确率近乎   100%  表明  Trap-Net 对可攻击空间的陷阱类靶标定义能有效地对对抗样本的黑盒攻击进
                 行防御.

                                                表 3    Trap-Net 黑盒防御效力 (%)

                                                                                        Trap-Net
                     攻击方法            参数           有目标攻击            原始模型
                                                                                  探测前          探测后
                       无              -              -              99.13         99.46         99.46
                      FGSM            ε  = 0.3       否              0.46          11.36         100
                      FGSM            ε  = 0.3       是              0.00           7.89         100
                       PGD            ε  = 0.3       否              0.00          38.56         99.84
                       PGD            ε  = 0.3       是              0.46          36.38         100
                     AdvGAN           ε  = 0.3       否              0.29           0.98         100

                    小结: (1) 对抗样本的迁移性极大增强了对抗样本于现实世界中的攻击性, 因此设计能有效抵御对抗样本迁移
                 性攻击, 即黑盒攻击下生成的对抗样本具有重要的实际意义. (2) Trap-Net 对可攻击空间的陷阱类靶标定义, 使得
                 其具有极强的对抗防御泛化性. 实验表明, Trap-Net 能有效抵御对抗样本的迁移性攻击.
                    ● RQ3: Trap-Net 的相关参数对防御方法的防御效力影响如何?
                    为了验证    Trap-Net 的相关参数对防御方法的防御效力影响, 从陷阱数据类别个数以及陷阱数据集类别对防
                 御效力的影响这一问题进行实验与分析. 针对陷阱数据类别个数对防御效力的影响这一问题, 我们通过训练不同
                 陷阱数据类型个数的陷阱式网络以探寻陷阱数据个数对陷阱式集成网络的防御效力的影响, 并对其在                                   FGSM  和
                 PGD  的有目标以及无目标攻击场景下进行检测. 针对陷阱数据类别对防御效力影响这一问题, 我们首先对陷阱数
                 据与目标数据的相似性进行计算, 以            K-MNIST, F-MNIST, CIFAR-10  和  CIFAR-100  为陷阱数据集进行陷阱式网
                 络的训练测试. 对于计算陷阱数据集与目标数据集相似度的大小这一问题, 首先通过逐个遍历的方式使用                               Wasserstein
                 距离度量方式     [36] 对不同陷阱数据集与目标数据集最后一层全连接层的输出向量进行距离度量. Wasserstein                      距离
                 是一种可以在数据分布不相交情况下仍能进行有效度量的距离度量方式. 我们使用公式                              (11) 表示不同数据集的
                 相似度:
                                                     (                )
                                                        W (true,trap) −W (true,true)
                                             S (true,trap) = 1−        ·100%                         (11)
                                                           W max −W min
                            W min  指  K-MNIST, F-MNIST, CIFAR-10  和  CIFAR-100  中与  MNIST  距离最远和最近的  Wasserstein
                 其中,   W max  和
                 距离.   W (true,true)  指  MNIST  数据流形内部的  Wasserstein  距离.   W (true,trap)  指当前被测陷阱数据集与  MNIST  数据流形
                 之间的   Wasserstein  距离.   S (true,trap)  表示当前被测陷阱数据集与  MNIST  数据集之间的相似度.   S (true,trap)  值越大, 表示
                 两个数据集越相似.
                    其次, 分别使用     K-MNIST, F-MNISTCIFAR-10  和  CIFAR-100  作为陷阱数据集, 以  MNIST  为目标数据集进行
                 Trap-Net 对抗防御效力实验及分析.
                    结果分析如下.
                    RQ3.1: 陷阱数据类别个数对防御效力的影响如何?
                    图  7  展示了无目标和有目标攻击场景下陷阱数据类别个数对                   Trap-Net 防御效力的影响. 其中, 点划线代表
                 PGD  攻击, 虚线代表    FGSM  攻击. 标记点为圆形代表探测前陷阱式网络准确率. 标记点为三角形代表探测后
                 Trap-Net 准确率. 在图  7(a) 所示的无目标攻击场景下, 随着陷阱数据个数类别的增加, 探测前准确率和探测后
                 准确率之间的差值不断增加, 这体现出             Trap-Net 的对抗样本探测防御效力逐步增强. 然而在图              7(b) 所示的迭代
                 式有目标攻击场景下, 低陷阱数据类别个数的陷阱式网络却体现出更强的防御效力. 这是因为低陷阱数据类别
                 时, DNN  内部特征空间不易形成陷阱数据流形, 所以陷阱数据于特征中能更好地插入邻近可攻击空间. 而当陷
   292   293   294   295   296   297   298   299   300   301   302