Page 299 - 《软件学报》2024年第4期
P. 299
孙家泽 等: 基于可攻击空间假设的陷阱式集成对抗防御网络 1877
表 5 陷阱数据与目标数据间相似度大小对防御效力的影响 (%)
M mk M mf M mc_100 M mc
攻击方法 参数 有目标攻击 M initial
探测前 探测后 探测前 探测后 探测前 探测后 探测前 探测后
无 - - 98.24 98.89 99.67 99.28 99.44
FGSM ε = 0.1 否 76.56 67.44 97.00 86.45 95.33 32.24 98.58 73.89 98.89
FGSM ε = 0.3 否 48.67 2.62 99.49 13.64 97.95 1.26 99.78 0.26 99.85
FGSM ε = 0.1 是 84.51 74.92 97.52 92.25 96.51 82.34 96.25 81.58 98.33
FGSM ε = 0.5 是 39.48 2.15 100 4.07 98.59 20.68 97.34 6.02 100
PGD ε = 0.1 否 10.43 27.00 96.22 45.89 92.22 4.34 98.56 10.56 98.22
PGD ε = 0.3 否 3.33 0.27 99.48 0.21 99.23 0.00 100 0.10 99.85
PGD ε = 0.1 是 40.67 90.76 97.53 94.51 96.08 85.35 96.48 83.92 97.50
PGD ε = 0.5 是 11.70 32.59 55.78 32.52 69.63 43.74 68.56 28.37 77.04
C&W C = 1 否 0.00 90.68 96.67 93.34 93.34 76.67 100 96.28 100
C&W C = 10 否 0.00 33.67 83.52 26.67 90.26 0.00 100 20.25 100
C&W C = 1 是 28.33 98.37 98.37 96.67 96.67 98.54 98.54 99.24 99.46
C&W C = 10 是 16.78 33.34 33.34 39.56 39.56 29.32 29.32 63.34 68.43
AdvGAN ε = 0.1 否 71.88 30.48 99.18 45.32 99.45 46.54 99.89 32.66 99.64
AdvGAN ε = 0.3 否 32.81 0.00 99.26 0.00 98.44 0.00 100 0.00 100
小结: (1) 陷阱数据类型个数与 Trap-Net 的集成多样性相关, 在构建 Trap-Net 时, 应同时考虑集成低类别和高
类别个数的陷阱式网络, 以提高 Trap-Net 的对抗防御效力和泛化能力. (2) Trap-Net 的对抗防御效力与陷阱数据与
目标数据的相似度相关, 陷阱数据集在选取时应同时兼顾与目标数据类别相似度高的陷阱数据以及相似度低的陷
阱数据, 且在陷阱类别阈值个数较少时, 不可选择过多的不同类别数据集作为陷阱数据集.
● RQ4: 陷阱式平滑损失函数能否优化目标数据与陷阱数据之间的数据分布, 从而进一步提高 Trap-Net 的对
抗防御效力?
为了验证陷阱式平滑损失函数对 Trap-Net 的对抗防御效力影响, 我们针对以下 3 个问题展开研究. 首先, 针
对陷阱类别数据在陷阱式平滑损失函数的影响下对外部背景可攻击空间的标记这一问题. 本文通过向 MNIST 数
据集以逐步递增的方式添加不同大小的扰动, 从目标数据流形出发, 逐渐穿越敏感特征空间, 通过观察最后一层全
连接层所输出的逻辑向量以分析 Trap-Net 对特征空间的解析与标记. 其次, 针对陷阱式平滑损失函数对 Trap-Net
的对抗防御效力是否有优化这一问题, 本文通过在相同的 Trap-Net 模型结构下分别使用 CE 和陷阱式平滑损失函
数作为损失函数训练 Trap-Net, 并在相同的对抗样本生成方式下进行对抗防御效力测试. 通过实验对比以验证陷
阱式平滑损失函数对 Trap-Net 对抗防御效力的有效性. 最后, 针对陷阱式诱导因子大小对对抗防御效力的影响这
一问题, 本文使用相同结构的 Trap-Net 网络模型, 利用不同大小的陷阱式诱导因子进行训练. 并通过在有目标和
无目标攻击场景下使用相同的对抗样本生成方法进行攻击, 以评估不同大小的陷阱式诱导因子在不同的攻击场景
下对 Trap-Net 防御效力的影响.
在对陷阱类别数据在陷阱式平滑损失函数的影响下对外部背景可攻击空间的标记进行实验探究中, 首先我们
使用高斯随机噪声对模型的鲁棒性进行探究, 当对抗扰动 σ > 0.25 时, 高斯随机噪声可以使得干净样本发生错误.
而当 σ 足够大时, 所有样本的输出皆为标签 2. 这证明了 DNN 对于其所不敏感的特征空间以泛化的方式所标注.
图 8 展示了在无目标攻击场景下, 使用基于梯度式的攻击算法进行无扰动大小限制攻击后, 不同大小的对抗扰动
下各目标类别于最后一层全连接层的输出的向量大小. 其中数据的正确类别为以点线表示的标签 2, 以点横线表
示的为陷阱类标签 16. 通过更换不同的扰动阈值进行实验发现, DNN 只有在很小的扰动空间中, 代表正确类别的
向量值为最大. 当扰动逐渐增大, 点划线所代表的类别 16 的向量值为最大. 这表明当扰动较大, 数据偏移出目标数
据流形所处的特征空间后, DNN 因为缺乏外部空间的特征定义而将外部特征空间全部标记为类别 16. 即陷阱类
别 16 已通过定义外部特征敏感空间和垃圾背景可攻击空间的方式将目标数据流形所在的特征敏感空间包围.