Page 218 - 《软件学报》2025年第5期
P. 218
2118 软件学报 2025 年第 36 卷第 5 期
f ˆn (x i−1 )
x i = x i−1 −r i−1 = x i−1 − ∇f ˆn (x i−1 ) (6)
||∇ f ˆn (x i−1 )|| 2 2
C&W [13] 同样是基于优化角度的攻击, 该算法将公式 (3) 转化为如下的优化表达式:
minD(x;x+r)+λ cw ·(max( f i (x+r)− f ˆn (x+r)) + s. t. x+r ∈ [0,1] n (7)
i,ˆn
+
其中, D 为计算干净样本与对抗样本差异性的函数, 如欧氏距离, (·) 为 max(· ; 0) 的简写. 从该表达式可知 C&W
攻击通过参数 λ cw 权衡攻击强度和噪声大小两个方面, λ cw 的值越高意味着攻击越强.
上述 4 种攻击为常用的经典攻击算法, 也用来验证模型面对不同攻击时是否具有健壮性的标准. 本文将基于
这些攻击算法验证所提方法的有效性.
1.2 对抗攻击防御策略
现有的防御策略大多从数据增强和正则化两个角度出发, 对抗训练是数据增强中效果最好的方法, 大多数数
据增强方法也是基于对抗训练 (adversarial training, AT) [10,11] 的改进. 一般来说, 对抗训练采用对抗样本进行模型训
练, 旨在优化如下内部最大化外部最小化的问题:
1 ∑ m
min maxL(F(x j +r j ;θ);y j ) (8)
θ m j=1||r j || p ⩽ϵ
该优化式内部求解满足 p 范数在 ϵ 域内的噪声, 使得生成的对抗样本的损失最大, 外部对数据集内所有 m 个对抗
样本的损失求和并最小化, 从而达到训练健壮模型的目的. 对抗样本使数据集规模扩大了一倍, 如果将干净样本和对抗
样本一起训练会产生更多的时间开销, 这在数据集规模庞大的模型训练任务中是不可取的. 因此大多数对抗训练策略
仅使用对抗样本来训练健壮模型, 其有效性可以通过邻域风险最小化原则 (vicinal risk minimization, VRM) [34] 来解释,
该原则要求训练数据为原样本邻近分布的新样本, 能在一定程度上缓解模型对干净数据的过拟合现象, 同时提高模型
的健壮性. 然而, 仅使用对抗样本进行训练更侧重于使模型达到对抗稳健性, 不可避免地牺牲了预测精度.
正则化防御策略尝试改进模型训练的损失函数, 在基础的交叉熵损失上添加相关的正则项达到使模型健壮的
目的. 雅可比正则化 (Jacobian regularization, JR) [17,18] 将对抗样本的输出 F(x+r; θ) 在样本点 x 处进行一阶泰勒展
开, 得到如下展开式:
∂F(x;θ)
2
F(x+r;θ) = F(x;θ)+ r+O(r ) (9)
∂x
∂F(x;θ)
由于 r 的二阶余项小到可以忽略不计, 因此对抗样本输出和干净样本输出的差距仅在第二项, 其系数
∂x
为模型输出关于输入的雅可比矩阵, 是一个 k 行 d 列的矩阵, 只需优化该系数项即可缩小两个输出之间的差距,
故 JR 设计如下损失函数:
[ ] 2
∑ ∂eF(x;θ)
λ JR
L JR = L CE + (10)
2 ∂x
{e}
其中, λ JR 控制雅可比正则项的优化程度, e 为 k 维空间的标准正交基, 这使得 JR 的时间开销随着分类任务的类别
数 k 的增加而增大, 同时输出-输入雅可比矩阵的正则项过度优化了模型参数, 无法保证模型的准确性. 大多数基
于雅可比正则化改进的方法, 如 Hoffman 等人 [35] 利用随机投影的概念将 JR 的训练时间缩减为原先的 1/k, Le 等
人 [36] 将最优传输理论与 JR 结合实现强健壮性, 都忽视了雅可比正则化使模型准确性下降这一问题.
另一种正则化方法 TRADES [26] 则侧重于权衡模型准确性与健壮性, 它设计的损失函数形式为:
L TRADES = L CE +λ TRADES maxKL(F(x;θ)||F(x+r;θ)) (11)
r<ϵ
其中, 正则项通过最大化干净样本和对抗样本的 KL 散度确定最具攻击性的噪声, 优化该项旨在提高模型的健壮
性. TRADES 通过超参数 λ TRADES > 0 控制该式中两项被优化的程度, 从而能够权衡模型准确性与健壮性, λ TRADES
的值越高意味着模型越健壮.
本文所提方法同样将对模型准确性和健壮性进行权衡, 上述防御策略如对抗训练, 雅可比正则化和 TRADES