Page 143 - 《软件学报》2020年第9期
P. 143
2764 Journal of Software 软件学报 Vol.31, No.9, September 2020
Table 1 Comparison of classification accuracy against adversarial examples on CIFAR-10 and MNIST (%)
表 1 CIFAR-10 和 MNIST 数据集上对于对抗样本分类正确率比较 (%)
数据集 攻击类型 攻击参数 B 模型 F 模型 D 模型 F+D 模型
ε=0.01 20.62 33.28 46.51 64.32
FGSM ε=0.02 13.64 24.21 32.52 60.28
ε=0.04 9.84 19.25 18.12 49.44
ε=0.01 6.5 9.35 18.79 42.26
BIM ε=0.02 5.76 5.74 10.46 32.42
ε=0.03 5.75 5.48 8.95 27.58
ε=0.01 7.5 10.98 24.74 47.82
MIM ε=0.02 5.8 5.84 11.47 38.07
ε=0.03 5.76 5.52 8.93 32.33
ε=0.01 7.78 12.01 22.82 43.96
CIFAR-10 PGD ε=0.02 5.37 5.8 10.43 31.57
ε=0.03 4.84 5.01 7.47 24.14
γ=0.05 11.1 18 38.6 45.3
JSMA θ=0.1, γ=0.1 3.1 7.8 17.2 32.4
γ=0.15 2.3 7.1 8.6 26.4
c=0.001 38.2 28.3 69.05 66.3
C&W c=0.01 5.75 5.6 48.75 47.9
c=0.1 5.5 5.4 23.1 30.8
c=0.1 73.7 36.9 88 89.9
EAD β=0.01, c=1 5.55 4.75 61.8 69.2
c=5 2.3 2.75 15.65 37.15
ε=0.1 49.69 71.61 26.11 94.84
FGSM ε=0.2 13.21 20.68 11.03 65.46
ε=0.3 5.42 11.65 9.77 20.68
ε=0.05 91.4 95.42 80.18 95.76
BIM ε=0.1 21.99 54.6 15.67 87.8
ε=0.15 1.28 10.88 7.47 72.84
ε=0.05 92.46 95.7 84.41 96.38
MIM ε=0.1 32.84 62.83 17.68 90.89
ε=0.15 4.3 17.84 9.41 79.84
ε=0.05 91.74 96.31 69.02 95.98
MNIST PGD ε=0.1 7.31 51.02 7.17 75.89
ε=0.15 0.18 8.04 1.82 38.61
γ=0.1 71.4 78.2 54.2 86.8
JSMA θ=0.2, γ=0.2 30.6 52.4 32.4 62.7
γ=0.4 15.6 28.8 16.2 30.6
c=0.1 60.9 89.4 93.1 97.4
C&W c=1 0.55 2.8 30.05 87.55
c=5 0.55 0.8 3.25 38.35
c=1 77.1 82.65 98.3 98.8
EAD β=0.01, c=5 0.65 6.45 69.35 95.35
c=10 0.55 2.4 36.55 93.5
表 1 的第 1 部分为在 CIFAR-10 数据集上的实验结果.
• B 模型在这 7 种攻击方式下的分类表现都受到了很大的影响,在扰动较低的情况下,准确率大幅下降;
扰动较高的情况下,准确率甚至只有个位数水平;
• F 模型仅在 FGSM 和 JSMA 这两种攻击方式下,分类准确率略有提升;但是对于其他的攻击方式,防御
效果并不明显.在 C&W 和 EAD 这两种比较相似的攻击方式下,准确率下降的跨度甚至超过了 B 模型;
• D 模型相比于前两种模型而言,对所有类型对抗样本都有提高.在 7 种攻击方式下,准确率都达到了 B
模型的两倍以上.其中:对 JSMA 和 C&W 攻击的防御表现提升了 3~4 倍,对高扰动的 EAD 攻击防御效
果甚至达到了 B 模型的 7 倍左右;
• 最后一列记录了应用本文提出的单模型鲁棒性提高方法后形成的 F+D 模型的防御结果.在前 4 种攻击
方法下,该模型准确率相比于 D 模型都有成倍的提高;同时,3 种不同扰动值间的下降幅度也远小于 D
模型;后 3 种攻击方式下的防御表现完美继承了 D 模型的优势,JSMA 和 EAD 攻击下,面对各种扰动值
都进一步提高,面对 EAD 高扰动攻击的分类准确率更是达到了 B 模型的 15 倍以上;对 C&W 两种小扰