Page 369 - 《软件学报》2024年第6期
P. 369
周志阳 等: 谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法 2945
净 ID 样本任务上和检测干净 OOD 样本任务上保持先进的性能. 与 SSL、ACET 和 ATOM 相比, 谛听在不显著损害
原分类性能及检测干净 OOD 样本性能前提下, 在检测由强攻击生成的对抗 OOD 样本上取得明显甚至是压倒性的性
能优势; 与 AT in 相比, 谛听在原分类任务、检测干净 OOD 样本及检测对抗 OOD 样本上全面取得显著的优势.
out
表 3 检测 OOD 样本的性能 (TPR-N 在 SVHN 和 CIFAR10 上指 TPR-95; 在 CIFAR100 上指 TPR-80) (%)
o o o o o t t
Clean PGD CW APGD ACW APGD ACW
D in Method Acc
AUC TPR-N AUC TPR-N AUC TPR-N AUC TPR-N AUC TPR-N AUC TPR-N AUC TPR-N
SSL 96.42 99.97 99.89 38.87 18.67 39.36 18.66 22.85 9.54 23.06 9.60 20.36 7.97 20.44 8.02
ACET 96.39 99.95 99.78 99.92 99.68 99.95 99.78 91.19 81.68 91.55 82.48 88.13 75.00 88.42 75.57
SVHN ATOM 96.49 99.99 99.99 99.98 99.98 99.99 99.98 83.12 67.46 83.44 67.43 76.58 59.21 76.93 59.23
AT in 94.13 99.62 93.38 94.88 77.90 95.52 79.84 94.46 76.59 94.91 77.68 94.01 75.22 94.48 76.26
out
Ours 96.75 99.98 99.92 99.97 99.92 99.97 99.92 98.12 92.88 98.14 93.06 98.53 93.97 98.53 94.22
SSL 95.21 99.04 97.04 52.29 8.84 0.98 0.07 0.04 0.00 0.04 0.00 0.03 0.00 0.03 0.00
ACET 95.87 98.72 96.06 98.13 95.07 98.19 95.17 9.31 6.42 21.68 15.93 1.86 0.68 2.68 1.11
CIFAR10 ATOM 95.97 99.34 98.49 97.83 91.46 97.84 91.30 0.29 0.05 0.32 0.05 0.26 0.05 0.26 0.05
AT in out 86.73 94.00 66.80 80.73 24.14 82.28 27.71 80.18 22.98 81.16 24.88 78.62 19.56 79.65 20.77
Ours 94.57 98.89 96.62 97.81 96.62 97.81 96.62 96.89 95.13 97.17 95.46 94.18 78.84 95.07 84.15
SSL 77.55 91.04 87.84 38.19 12.05 0.48 0.03 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
ACET 77.90 89.24 83.50 89.17 83.48 89.18 83.48 7.78 0.80 15.30 3.29 3.44 0.11 8.57 0.56
CIFAR100 ATOM 78.98 93.36 93.05 91.27 85.08 91.27 85.09 0.57 0.07 0.06 0.08 0.22 0.05 0.23 0.05
AT in out 60.95 79.92 59.56 51.30 9.56 56.30 14.63 50.45 8.82 54.18 11.68 48.44 7.11 52.03 9.10
Ours 75.97 89.79 85.37 88.82 85.34 88.84 85.33 79.17 71.76 80.71 73.80 80.72 72.95 81.77 75.35
表 4 平均最大 Softmax 分数 (MMSP)
D in Method ID Clean o PGD o CW o APGD o ACW o APGD t ACW t
SSL 0.983 5 0.006 5 0.884 2 0.884 1 0.943 8 0.943 7 0.954 7 0.954 7
ACET 0.987 5 0.115 3 0.116 8 0.116 8 0.421 7 0.411 5 0.511 7 0.506 6
0.464 1
0.548 7
0.548 9
0.001 9
0.001 9
0.463 4
SVHN ATOM 0.985 0 0.001 8 0.140 3
AT in out 0.854 8 0.124 3 0.259 0 0.243 4 0.269 7 0.259 4 0.281 7 0.272 3
Ours 0.987 8 0.006 3 0.010 3 0.010 2 0.208 7 0.205 5 0.207 6 0.203 6
SSL 0.920 8 0.026 5 0.874 2 0.998 8 0.999 9 0.999 9 0.999 9 0.999 9
ACET 0.957 0 0.147 7 0.164 9 0.162 7 0.946 9 0.868 6 0.994 5 0.991 0
CIFAR10 ATOM 0.959 3 0.026 2 0.109 9 0.110 5 0.999 5 0.999 5 0.999 6 0.999 5
AT in out 0.744 6 0.228 5 0.415 7 0.394 2 0.423 5 0.409 8 0.445 5 0.431 0
Ours 0.929 4 0.030 8 0.032 7 0.032 7 0.048 0 0.044 4 0.187 7 0.152 5
SSL 0.761 6 0.126 0 0.858 7 0.999 5 1.000 0 1.000 0 1.000 0 1.000 0
ACET 0.797 6 0.212 9 0.213 5 0.213 4 0.988 5 0.961 8 0.998 2 0.992 1
CIFAR100 ATOM 0.853 4 0.204 2 0.211 5 0.211 5 0.999 3 0.999 3 0.999 5 0.999 5
AT in out 0.466 5 0.149 7 0.416 7 0.358 8 0.426 7 0.380 6 0.449 9 0.402 8
Ours 0.748 7 0.139 7 0.140 2 0.274 5 0.254 1 0.226 2 0.251 8
不使用任何对抗 OOD 样本训练的 SSL 在弱的 PGD 系列攻击 (即 PGD 和 o CW ) 下即被大幅度地击败.
o
ACET 和 ATOM 在检测 PGD 系列的攻击生成的对抗 OOD 样本上都取得先进的性能, 且几乎没有损害原分类任
o
o
t
务和检测干净 OOD 样本的性能. 然而, 在检测由更强的 Auto-PGD 系列的攻击 (即 APGD 、ACW 、APGD 和
t
ACW ) 生成的对抗 OOD 样本上, 它们的性能都出现了大幅度地下降, 在 CIFAR 系列数据集上几乎被完全攻破.
这证明了仅训练辅助的对抗 OOD 样本无法有效地使分布内决策边界对对抗扰动足够鲁棒, 而只是呈现了针对
PGD 系列攻击的“过拟合”, 或者说仅呈现了梯度混淆 [38] 的虚假安全. 在 ID 数据上引入常规对抗训练 (AT) 的 AT in
out
虽然相较于 ACET 和 ATOM 有效地提升了 OOD 检测的鲁棒性, 但是却显著地损害了对干净 ID 样本的分类准确
率以及检测干净 OOD 样本的性能; 其在 TPR-N 指标下的结果相较于谛听也较不理想, 这可能是由于其在干净 ID