Page 287 - 《软件学报》2024年第4期
P. 287
孙家泽 等: 基于可攻击空间假设的陷阱式集成对抗防御网络 1865
ε x .
∗
sign 函数计算梯度方向, 并乘以扰动调节因子 后生成对抗扰动; 最终原样本 x 添加对抗扰动生成对抗样本
FGSM 是最早的对抗攻击算法之一, 以 FGSM 算法衍生出了一大批攻击算法, 如 I-FGSM、PGD 等. FGSM 结构简
单, 攻击力低, 是快速且廉价的对抗样本生成方式.
I-FGSM (iterative gradient sign method) 由 Kurakin 等人 [16] 在 2016 年提出. I-FGSM 又称基本迭代方法, 是
FGSM 的一种变体攻击算法. I-FGSM 使用迭代的方式, 沿着梯度增加的方向小步多次地生成扰动, 在相同步长下,
I-FGSM 比 FGSM 有更强的攻击表现. 其核心公式如下:
∗
∗
x ∗ n+1 = x +clip α,x (ε· sign(∇ x ∗ J(θ, x ,y))) (5)
n
n
n
x ∗ ε 生成的抗样本. I-FGSM 构造出的对抗扰动相较于 FGSM 更加
其中, n+1 代表经过一次迭代, 以更小的扰动因子
精准. 但很显然, I-FGSM 攻击算法提高了对抗样本生成的计算量.
PGD (project gradient descent) 由 Madry 等人 [17] 在 2018 年提出. PGD 是一种基于 I-FGSM 的变体迭代式攻击
算法. 与 I-FGSM 不同, PGD 攻击拥有更多的迭代次数, 并对输入噪声进行了随机初始化操作. 同时, 与 I-FGSM 直
接在制定的范围内约束扰动大小不同, PGD 使用 l ∞ 范数映射予以替代. PGD 提出了最大最小化思想, 其公式如下:
minρ(θ),where ρ(θ) = E (x,y)∼D [maxL(θ, x+δ,y)] (6)
θ δ∈S
其中, 内部最大化旨在模型内部可以找出最强的对抗样本使得损失最大化. 而外部最小化旨在利用上一步生成的
对抗样本进行对抗训练, 从而使得模型学习到更合适的参数来尽可能地降低数据分布上损失的期望. 与 I-FGSM
相比, PGD 拥有更强的攻击效果, 是目前最强的一阶攻击算法. 其核心公式为:
∏
x t+1 = (x t +ε· sign(∇ x J(x t ,y))) (7)
x+S
其中, ε 为每次迭代的小扰动系数, S 为扰动的空间约束. 在每次迭代过程中, PGD 攻击方法都会将大于扰动阈值
的扰动投影回扰动边界以保证扰动大小.
C&W (Carlini & Wagner) 由 Carlini 等人 [18] 在 2017 年提出. C&W 是一种基于优化的攻击算法. C&W 算法生
成的对抗样本攻击性强, 扰动小. 但生成对抗样本的时间花销远大于其他攻击算法. 其生成核心公式为:
1
r n = (tanh(ω n )+1)− X n
2
( )
1
min∥r n ∥+c· f tanh(ω n )+1 (8)
ω n 2
′
′
′
where f(x ) = max(max{Z(x ) i : i , t}−Z(x ) t ,−k)
c
其中, r n 为对抗样本和干净样本的差值, 为二进制搜索所选择的常数项, Z(x) 为 Softmax 层输入向量, k 为对抗
样本的置信度.
AdvGAN 由 Xiao 等人 [19] 在 2018 年提出. AdvGAN 是一种基于生成式对抗网络 (GAN) 的对抗样本生成方法.
AdvGAN 由生成器 G , 判别器 D 和目标神经网络 C 构成. AdvGAN 通过 G 生成对抗扰动 G(x) , 并将对抗扰动添加
∗ ∗ ∗ C , 通过二者的
到干净样本中生成对抗样本, 即 x = x+G(x) D 将对 x 是否为对抗样本进行判别, 同时用 x 欺骗
.
反馈更新 G 的参数从而逐渐优化 G(x) 的攻击性. AdvGAN 最终生成在视觉上与真实样本难以取分的对抗样本, 且
生成的对抗样本相较于其他方法具有更强的迁移性 [22] .
2 陷阱式集成对抗防御网络
本节详细介绍陷阱式集成对抗防御方法. 图 1 展示了 Trap-Net 的结构图, 其中第 1 阶段基于流形学习, 从
DNN 特征空间的角度进行对抗成因的探讨, 提出可攻击空间对抗成因假设. 第 2 阶段根据可攻击空间对抗成因假
设, 提出了一种针对对抗样本的陷阱式对抗防御思维. 陷阱式对抗防御思维的核心思想是使用可被探测的陷阱标
记标注可能暗藏对抗样本的可攻击空间, 减少对抗样本对应的生成空间. 根据这种对抗防御思维, 构建了陷阱式集
成对抗防御网络 Trap-Net. Trap-Net 基于集成学习的思想集成多个陷阱式网络, 可以在不损失原分类精度的同时
扩大靶标可攻击空间的大小. Trap-Net 通过判断输入是否命中被陷阱类别标记的靶标可攻击空间以区分输入是否