Page 297 - 《软件学报》2024年第4期

P. 297

孙家泽等: 基于可攻击空间假设的陷阱式集成对抗防御网络 1875

攻击的对抗样本并不隶属于目标模型的目标数据流形之内, 即能有效攻击传统网络模型. 而在探测逻辑判断后,
Trap-Net 的准确率近乎 100% 表明 Trap-Net 对可攻击空间的陷阱类靶标定义能有效地对对抗样本的黑盒攻击进
行防御.

表 3 Trap-Net 黑盒防御效力 (%)

Trap-Net
攻击方法参数有目标攻击原始模型
探测前探测后
无－－ 99.13 99.46 99.46
FGSM ε = 0.3 否 0.46 11.36 100
FGSM ε = 0.3 是 0.00 7.89 100
PGD ε = 0.3 否 0.00 38.56 99.84
PGD ε = 0.3 是 0.46 36.38 100
AdvGAN ε = 0.3 否 0.29 0.98 100

小结: (1) 对抗样本的迁移性极大增强了对抗样本于现实世界中的攻击性, 因此设计能有效抵御对抗样本迁移
性攻击, 即黑盒攻击下生成的对抗样本具有重要的实际意义. (2) Trap-Net 对可攻击空间的陷阱类靶标定义, 使得
其具有极强的对抗防御泛化性. 实验表明, Trap-Net 能有效抵御对抗样本的迁移性攻击.
● RQ3: Trap-Net 的相关参数对防御方法的防御效力影响如何?
为了验证 Trap-Net 的相关参数对防御方法的防御效力影响, 从陷阱数据类别个数以及陷阱数据集类别对防
御效力的影响这一问题进行实验与分析. 针对陷阱数据类别个数对防御效力的影响这一问题, 我们通过训练不同
陷阱数据类型个数的陷阱式网络以探寻陷阱数据个数对陷阱式集成网络的防御效力的影响, 并对其在 FGSM 和
PGD 的有目标以及无目标攻击场景下进行检测. 针对陷阱数据类别对防御效力影响这一问题, 我们首先对陷阱数
据与目标数据的相似性进行计算, 以 K-MNIST, F-MNIST, CIFAR-10 和 CIFAR-100 为陷阱数据集进行陷阱式网
络的训练测试. 对于计算陷阱数据集与目标数据集相似度的大小这一问题, 首先通过逐个遍历的方式使用 Wasserstein
距离度量方式 [36] 对不同陷阱数据集与目标数据集最后一层全连接层的输出向量进行距离度量. Wasserstein 距离
是一种可以在数据分布不相交情况下仍能进行有效度量的距离度量方式. 我们使用公式 (11) 表示不同数据集的
相似度:
( )
W (true,trap) −W (true,true)
S (true,trap) = 1− ·100% (11)
W max −W min
W min 指 K-MNIST, F-MNIST, CIFAR-10 和 CIFAR-100 中与 MNIST 距离最远和最近的 Wasserstein
其中, W max 和
距离. W (true,true) 指 MNIST 数据流形内部的 Wasserstein 距离. W (true,trap) 指当前被测陷阱数据集与 MNIST 数据流形
之间的 Wasserstein 距离. S (true,trap) 表示当前被测陷阱数据集与 MNIST 数据集之间的相似度. S (true,trap) 值越大, 表示
两个数据集越相似.
其次, 分别使用 K-MNIST, F-MNISTCIFAR-10 和 CIFAR-100 作为陷阱数据集, 以 MNIST 为目标数据集进行
Trap-Net 对抗防御效力实验及分析.
结果分析如下.
RQ3.1: 陷阱数据类别个数对防御效力的影响如何?
图 7 展示了无目标和有目标攻击场景下陷阱数据类别个数对 Trap-Net 防御效力的影响. 其中, 点划线代表
PGD 攻击, 虚线代表 FGSM 攻击. 标记点为圆形代表探测前陷阱式网络准确率. 标记点为三角形代表探测后
Trap-Net 准确率. 在图 7(a) 所示的无目标攻击场景下, 随着陷阱数据个数类别的增加, 探测前准确率和探测后
准确率之间的差值不断增加, 这体现出 Trap-Net 的对抗样本探测防御效力逐步增强. 然而在图 7(b) 所示的迭代
式有目标攻击场景下, 低陷阱数据类别个数的陷阱式网络却体现出更强的防御效力. 这是因为低陷阱数据类别
时, DNN 内部特征空间不易形成陷阱数据流形, 所以陷阱数据于特征中能更好地插入邻近可攻击空间. 而当陷

292 293 294 295 296 297 298 299 300 301 302