Page 479 - 《软件学报》2025年第10期

P. 479

4876 软件学报 2025 年第 36 卷第 10 期

表 1 与其他检测方法在 CIFAR-10 数据集上对比 (%)

检测方法评价指标 BIM DeepFool CW FGSM PGD Average
FPR 1.13 1.44 4.94 2.97 4.52 3.00
KD+BU
TPR 92.01 54.02 29.37 22.78 47.55 49.15
FPR 6.56 6.56 6.56 6.56 6.56 6.56
NSS
TPR 69.95 50.15 44.51 95.73 25.61 57.19
FPR 5.07 5.07 5.07 5.07 5.07 5.07
FS
TPR 4.54 39.18 56.26 32.50 49.68 36.43
FPR 10.90 10.90 10.90 10.90 10.90 10.90
SFAD
TPR 31.74 89.57 59.78 80.14 32.81 58.80
FPR 10.01 10.01 10.01 10.01 10.01 10.01
DNR
TPR 10.67 30.20 35.62 30.23 23.67 26.08
FPR 6.67 6.80 6.00 6.71 6.67 6.54
本文
TPR 88.00 40.82 39.50 40.30 97.33 61.99

5.3.5 消融实验
为了探究下阈值对本文检测方法的影响, 我们使用基于图像变换的单阈值对抗样本检测方法来进行对比实
验. 其检测方法的原理是计算输入样本在图像变换前后的预测概率数组之间的距离, 并将该距离与预设的上阈值
进行比较. 如果距离大于上阈值, 则被判定为对抗样本; 否则, 判定为良性样本. 该部分实验设置与第 5.3.3 节环境
设置相同. 图 8(b) 和图 9 展示了在不同攻击下单阈值检测器的检测性能.

1.0 1.0
0.8 0.8

0.6 0.6
TPR TPR
0.4 BIM (AUC=0.13) 0.4
BIM (AUC=0.01)
DeepFool (AUC=0.93)
DeepFool (AUC=0.89)
CW (AUC=0.98)
CW (AUC=0.96)
FGSM (AUC=0.67)
0.2 PGD (AUC=0.06) 0.2 FGSM (AUC=0.85)
PGD (AUC=0.01)
0 0
0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0
FPR FPR
(a) VGG19 (b) ConvNeXt
图 9 ImageNet 上不同攻击下单阈值检测器的检测性能

对比图 7 和图 9 可以发现, 相比双阈值检测方法, 仅设置上阈值的检测方法在 DeepFool、CW 和 FGSM 这 3
种攻击下表现出较强的检测性能. 在 ImageNet 数据集中, 基于双阈值的对抗样本检测方法在保护 VGG19 模型时,
对以上 3 种攻击的 AUC 值分别为 0.88、0.94 和 0.62. 而单阈值检测方法的 AUC 值分别达到 0.93、0.98 和 0.67,
比双阈值方法平均高出约 0.05. 进一步观察发现, 图 9 和图 7 中 VGG19 模型的 ROC 曲线基本保持一致, 最大的
区别在于图 7 中, FPR 在 0.05 之前对以上 3 种攻击检测率几乎为 0. 这一现象在图 8 中也存在. 这表明仍然存在少
部分良性样本在经过图像变换后, 其预测概率分布距离小于下阈值, 被错误判定为对抗样本. 然而, 对于 PGD 和
BIM 这两种对抗攻击, 我们观察到单阈值检测方法在 ImageNet 数据集和 CIFAR-10 数据集上取得的 AUC 值接
近 0. 结果表明单阈值检测方法对于这两种攻击完全不具备检测能力. 而双阈值检测方法对于 PGD 和 BIM 攻击
表现出优秀的检测性能, 在两个数据集上的 3 个模型中均获得较高的 AUC 值. 这一实验结果说明, 下阈值能有效
地检测 PGD、BIM 等生成的强鲁棒性对抗样本. 总而言之, 下阈值的设定虽然会对检测器的误报率有较小的增
加, 但能显著降低了检测器的漏报率.

474 475 476 477 478 479 480 481 482 483 484