Page 218 - 《软件学报》2025年第5期
P. 218

2118                                                       软件学报  2025  年第  36  卷第  5  期


                                                               f ˆn (x i−1 )
                                             x i = x i−1 −r i−1 = x i−1 −  ∇f ˆn (x i−1 )             (6)
                                                             ||∇ f ˆn (x i−1 )|| 2 2
                    C&W  [13] 同样是基于优化角度的攻击, 该算法将公式          (3) 转化为如下的优化表达式:

                                    minD(x;x+r)+λ cw ·(max( f i (x+r)− f ˆn (x+r)) +  s. t. x+r ∈ [0,1] n  (7)
                                                     i,ˆn
                                                                      +
                 其中,    D 为计算干净样本与对抗样本差异性的函数, 如欧氏距离, (·) 为               max(· ; 0) 的简写. 从该表达式可知    C&W
                 攻击通过参数     λ cw  权衡攻击强度和噪声大小两个方面,         λ cw  的值越高意味着攻击越强.
                    上述  4  种攻击为常用的经典攻击算法, 也用来验证模型面对不同攻击时是否具有健壮性的标准. 本文将基于
                 这些攻击算法验证所提方法的有效性.

                 1.2   对抗攻击防御策略
                    现有的防御策略大多从数据增强和正则化两个角度出发, 对抗训练是数据增强中效果最好的方法, 大多数数
                 据增强方法也是基于对抗训练           (adversarial training, AT) [10,11] 的改进. 一般来说, 对抗训练采用对抗样本进行模型训
                 练, 旨在优化如下内部最大化外部最小化的问题:

                                                   1  ∑ m
                                                min      maxL(F(x j +r j ;θ);y j )                    (8)
                                                 θ m   j=1||r j || p ⩽ϵ
                    该优化式内部求解满足        p  范数在  ϵ  域内的噪声, 使得生成的对抗样本的损失最大, 外部对数据集内所有                m  个对抗
                 样本的损失求和并最小化, 从而达到训练健壮模型的目的. 对抗样本使数据集规模扩大了一倍, 如果将干净样本和对抗
                 样本一起训练会产生更多的时间开销, 这在数据集规模庞大的模型训练任务中是不可取的. 因此大多数对抗训练策略
                 仅使用对抗样本来训练健壮模型, 其有效性可以通过邻域风险最小化原则                      (vicinal risk minimization, VRM)  [34] 来解释,
                 该原则要求训练数据为原样本邻近分布的新样本, 能在一定程度上缓解模型对干净数据的过拟合现象, 同时提高模型
                 的健壮性. 然而, 仅使用对抗样本进行训练更侧重于使模型达到对抗稳健性, 不可避免地牺牲了预测精度.
                    正则化防御策略尝试改进模型训练的损失函数, 在基础的交叉熵损失上添加相关的正则项达到使模型健壮的
                 目的. 雅可比正则化      (Jacobian regularization, JR) [17,18] 将对抗样本的输出   F(x+r; θ) 在样本点  x 处进行一阶泰勒展
                 开, 得到如下展开式:

                                                              ∂F(x;θ)
                                                                         2
                                              F(x+r;θ) = F(x;θ)+    r+O(r )                           (9)
                                                                ∂x
                                                                                                  ∂F(x;θ)
                    由于  r 的二阶余项小到可以忽略不计, 因此对抗样本输出和干净样本输出的差距仅在第二项, 其系数
                                                                                                    ∂x
                 为模型输出关于输入的雅可比矩阵, 是一个               k 行  d  列的矩阵, 只需优化该系数项即可缩小两个输出之间的差距,
                 故  JR  设计如下损失函数:

                                                               [       ] 2
                                                            ∑   ∂eF(x;θ)
                                                          λ JR
                                                 L JR = L CE +                                       (10)
                                                           2      ∂x
                                                             {e}
                 其中,   λ JR  控制雅可比正则项的优化程度,      e 为  k 维空间的标准正交基, 这使得       JR  的时间开销随着分类任务的类别
                 数  k 的增加而增大, 同时输出-输入雅可比矩阵的正则项过度优化了模型参数, 无法保证模型的准确性. 大多数基
                 于雅可比正则化改进的方法, 如          Hoffman  等人  [35] 利用随机投影的概念将    JR  的训练时间缩减为原先的        1/k, Le 等
                 人  [36] 将最优传输理论与  JR  结合实现强健壮性, 都忽视了雅可比正则化使模型准确性下降这一问题.
                    另一种正则化方法       TRADES [26] 则侧重于权衡模型准确性与健壮性, 它设计的损失函数形式为:

                                          L TRADES = L CE +λ TRADES maxKL(F(x;θ)||F(x+r;θ))          (11)
                                                            r<ϵ
                 其中, 正则项通过最大化干净样本和对抗样本的                KL  散度确定最具攻击性的噪声, 优化该项旨在提高模型的健壮
                 性. TRADES  通过超参数    λ TRADES > 0 控制该式中两项被优化的程度, 从而能够权衡模型准确性与健壮性,                  λ TRADES
                 的值越高意味着模型越健壮.
                    本文所提方法同样将对模型准确性和健壮性进行权衡, 上述防御策略如对抗训练, 雅可比正则化和                                TRADES
   213   214   215   216   217   218   219   220   221   222   223