Page 302 - 《软件学报》2024年第4期

P. 302

1880 软件学报 2024 年第 35 卷第 4 期

样本时, 二者的准确率皆可到达 90% 以上. 然而因为 Trap-Net 的集成特性, Trap-Net 能在不损失, 甚至提高原目标
数据分类精度的基础上进行对抗样本的防御. 相比之下, 特征压缩对抗防御方法需要牺牲部分目标分类精度, 且因
为其防御有效性取决于阈值的选取, 其探测结果需以较高的误诊率为代价所换取. 在面对高扰动攻击时, 特征压缩
后的对抗样本仍以高置信度指向错误分类, 因此防御失效.

表 7 Trap-Net 与特征压缩对抗防御效力对比 (%)

Feature squeezing Trap-Net
攻击方法参数有目标攻击原始模型
探测前探测后探测前探测后
无－－ 99.13 96.73 100 99.46 99.46
FGSM ε = 0.3 否 1.68 78.15 89.38 6.19 99.44
FGSM ε = 0.3 是 2.86 86.34 92.37 6.63 99.64
FGSM ε = 0.7 否 0.00 0.02 16.37 0.09 99.82
FGSM ε = 0.7 是 0.72 12.34 34.51 0.37 99.98
PGD ε = 0.3 否 0.00 80.34 93.67 0.13 99.94
PGD ε = 0.3 是 0.56 83.48 94.48 31.58 86.27
PGD ε = 0.7 否 0.00 0.00 0.00 0.00 100
PGD ε = 0.7 是 0.00 10.34 13.48 11.93 97.37
C&W C = 1 否 0.00 81.37 92.34 90.12 98.64
C&W C = 1 是 3.46 78.63 79.34 97.10 97.10

在与频谱对抗防御方法的对比实验中, 我们使用了 Harder 等人 [31] 所提供的对抗样本生成代码以及相关的评
判标准, 并使用 VGG16 作为原始模型. 以 CIFAR-10 作为目标数据集, 使用 FGSM 攻击方法, 以对抗扰动为
ε = 0.03 的对抗样本进行频谱信息的提取, 并利用该频谱信息进行探测对抗样本的回归预测模型的训练. Trap-Net
使用经过挑选的 CIFAR-100 中的 10 大超类为陷阱数据集构建集成网络. 实验对比的整体实验结果如表 8 所示.
特别的, 因为其在评判模型防御力有效性时使用的为挑选后攻击成功的对抗样本, 所以表 8 的第 2 列中原始模型
的预测准确率为 0. 同时我们预设基于梯度的对抗攻击方法 FGSM, BIM 和 PGD 的对抗扰动集合为 ε = [0.003,
0.3,0.7] .

表 8 Trap-Net 与频谱对抗防御效力对比 (%)

Trap-Net
攻击方法原始模型 MFS PFS
探测前探测后
无 92.13 92.13 92.13 92.64 92.64
FGSM 0.0 98.14 97.00 12.64 97.84
BIM 0.0 93.58 98.06 2.58 97.25
PGD 0.0 70.43 96.9 1.86 97.12
DeepFool 0.0 58.06 86.1 1.64 96.48

如表 8 所示, 与频谱对抗防御方法相比, Trap-Net 在同类型对抗攻击的检测防御方面略有不足. 频谱对抗防御
在如 FGSM, BIM 和 PGD 等同类型的对抗样本检测方面拥有令人赞叹的性能以及相应的黑盒防御鲁棒性. 然而在
面对如基于优化的对抗样本生成方法 DeepFool 等对抗样本的攻击时, 频谱对抗防御的对抗效力则会在一定程度
上降低. 这在一定程度上表现出了频谱对抗防御方法对现有对抗样本所提供的数据信息的强依赖. 而 Trap-Net 则
能很好地避免这一点, Trap-Net 在面对不同类别的对抗样本攻击时, 依旧能保持良好的对抗防御能力.
小结: (1) Trap-Net 相较于核密度和贝叶斯不确定性估计法具有更强的对抗样本探测能力, 具有更强的对抗防
御泛化能力, 同时因为 Trap-Net 不依赖于生成的对抗样本所提供的信息, Trap-Net 相较于频谱对抗防御方法, 在面
对不同类别的对抗攻击时, 具有更稳定的对抗防御能力. (2) 在低扰动的对抗攻击场景下, Trap-Net 相较于特征压
缩对抗防御方法具有等同的对抗样本探测能力, 而在较大的对抗扰动攻击场景下, 特征压缩方法无法对损失的数

297 298 299 300 301 302 303 304 305 306 307