Page 478 - 《软件学报》2025年第10期

P. 478

刘会等: 基于图像变换的双阈值对抗样本检测 4875

1.0 1.0
0.8 0.8

0.6 0.6
TPR TPR
0.4 0.4
BIM (AUC=0.89) BIM (AUC=0.92)
0.2 DeepFool (AUC=0.88) 0.2 DeepFool (AUC=0.89)
CW (AUC=0.94) CW (AUC=0.96)
FGSM (AUC=0.62) FGSM (AUC=0.85)
PGD (AUC=0.95) PGD (AUC=0.94)
0 0
0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0
FPR FPR
(a) VGG19 (b) ConvNeXt
图 7 ImageNet 上不同攻击下检测器的检测性能

1.0 1.0
0.8 0.8

0.6 0.6
TPR TPR
0.4 0.4
BIM (AUC=0.91) BIM (AUC=0.01)
0.2 DeepFool (AUC=0.88) 0.2 DeepFool (AUC=0.89)
CW (AUC=0.90) CW (AUC=0.91)
FGSM (AUC=0.80) FGSM (AUC=0.81)
PGD (AUC=0.98) PGD (AUC=0.00)
0 0
0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0
FPR FPR
(a) 双阈值检测 (b) 单阈值检测
图 8 CIFAR-10 上不同攻击下检测器的检测性能

5.3.4 与其他检测方法对比
为了体现本检测方法的优势, 我们将其与先进的检测方法进行对比. 我们选择了 KD+BU [14] 、NSS [34] 、FS [31] 、
SFAD [35] 和 DNR [36] 共 5 种高水平的检测方法, 在 CIFAR-10 数据集上进行比较. 其中, KD+BU 和 NSS 属于有监督
检测方法; FS、SFAD 和 DNR 属于无监督检测方法. 这里本文方法的阈值选取在由良性样本与对抗样本组成的数
据集中进行, 其中对抗样本由本文所提的 5 类攻击在不同参数下生成, 良性样本与对抗样本数量相同.
从表 1 中可以看出, 本文方法获得了平均 TPR 为 61.99%, 高于其他检测方法. 这说明本文方法在与其他方法
相比检测对抗样本的能力最强. 同时, 相比其他方法, 本文方法检测出的对抗样本类型更为全面, 对于 5 种攻击均
能有效检测, 针对检测效果最差的 CW 对抗样本, 其检测率也能达到 39.50%. 相比于本文检测方法, 其他方法都存
在明显的检测短板. 如 KD+BU 方法对于 CW 和 FGSM 攻击都只能检测 20.00%–30.00% 的对抗样本. NSS 方法无
法有效检测出 PGD 攻击, 其对 PGD 对抗样本检测率只有 25.61%. FS 方法只能检测出 4.54% 的 BIM 对抗样本和
32.50% 的 FGSM 对抗样本. SFAD 方法也只能检测出 31.74% 的 BIM 对抗样本和 32.81% 的 PGD 对抗样本. DNR
方法只能检测出 10.67% 的 BIM 对抗样本. 虽然我们的方法获得了最高的 TPR, 但同时取得了较高的 FPR. 这说明
本文检测方法存在较高的误报率, 相对于 KD+BU 和 FS 方法更容易产生误报. 但是通过图 8(a) 可以看到, 本文检
测方法可以在保证较小的 FPR 同时, 对 BIM 及 PGD 两种对抗样本达到良好的检测效果. 而且本文方法不需要更
改任何模型或者输入数据的信息, 因此在实际应用中完全可以与其他检测方法结合使用, 以较低的误报率在数据
处理阶段筛选出 90.00% 以上的 PGD 与 BIM 对抗样本.

473 474 475 476 477 478 479 480 481 482 483