Page 470 - 《软件学报》2025年第10期
P. 470

刘会 等: 基于图像变换的双阈值对抗样本检测                                                          4867


                 种基于梯度的单次攻击方法. 它利用目标模型的梯度信息生成对抗扰动并添加到输入样本中生成对抗样本. 其攻
                 击的形式化表达如公式        (1) 所示:

                                                  x adv = x+ε·Sign(∇ x J(θ, x,y))                     (1)
                                                                       θ
                                              y
                 其中,  x adv  是对抗样本,   x 是输入样本,   是  x 对应的标签,  ε 是扰动大小,   是模型的参数,    Sign(·) 表示取梯度的符号,
                 J(θ, x,y) 是关于模型的损失函数,    ∇ x J(θ, x,y) 是计算样本相对于损失函数的梯度.
                    (2) 基本迭代方法    (basic iterative method, BIM). BIM  攻击  [24] 是一种常见的迭代对抗攻击方法, 它是对  FGSM
                 攻击的改进与扩展. BIM      通过在每次迭代过程中添加由梯度决定的小扰动, 并在原始样本的一定范围内进行裁剪
                 修改, 逐步逼近目标攻击效果. 该方法可以更好地探索目标模型的敏感区域, 生成扰动更小的对抗样本, BIM                               攻击
                 的形式化表达如公式       (2) 所示:

                                                      {                    }
                                                                       N
                                             x N+1  = Clip ε x N  +α·Sign(∇ x J(θ, x ,y))             (2)
                                              adv       adv            adv
                 其中,  x N adv  表示第  N  次迭代的版本,  α 表示每次移动的步长,  Clip ε  表示在扰动范围  ε 内进行裁剪.
                    (3) 投影梯度下降攻击      (projected-gradient descent attack, PGD). PGD  攻击  [25] 是  FGSM  攻击的多步变体, 它通
                 过采用投影梯度下降的方式处理对抗样本生成的优化问题. 在每次迭代的过程中                           PGD  会沿着梯度的反方向按照
                 设定的步长逐步更新样本, 然后将结果映射至原始扰动空间, 以确保其扰动大小不超过预设限制. PGD                               攻击的形
                 式化表达如公式      (3) 所示:

                                                  ∏    {                   }
                                                                       N
                                             x N+1  =  x N adv  +α·Sign(∇ x J(θ, x ,y))               (3)
                                                                       adv
                                              adv
                                                     x+s
                                ∏
                 其中,  s 是随机扰动,     x+s  是投影函数将值投影到      x+ s 的邻域范围内.
                    (4) DeepFool 攻击. DeepFool 攻击  [26] 不同于以上的  FGSM、PGD  等基于梯度的攻击, 其攻击原理基于解析几
                 何. 在多分类问题中, DeepFool 认为分类边界和样本的距离即为改变分类标签的最小扰动, 通过不断迭代修改扰
                 动, 可以将原始样本推向决策边界, 直至跨越分类边界实现攻击. 在相同的攻击成功率下, DeepFool 攻击生成的扰
                 动比  FGSM  攻击的扰动更小, 攻击更为隐蔽.
                    (5) CW (Carlini and Wagner) 攻击. CW  攻击  [27] 是一种基于优化的攻击方法. 它遵循对抗攻击追求的两个关键
                 目标, 即对抗样本与原始样本差距尽可能小和对抗样本能使模型以高置信度分类出错. CW                             攻击将以上两个目标
                 进行数学建模, 确定为两个目标函数, 通过最小化目标函数来寻找最优的攻击扰动. 该方法可以通过调节参数, 来
                 控制生成对抗样本的扰动强度和置信度大小, 以此破解大部分对抗防御手段. 由于需要多轮迭代, CW                              攻击生成对
                 抗样本过程较为缓慢. CW       的  L 2  范数攻击可形式化表达为公式       (4):

                                                    {
                                                      min ∥δ∥ 2 +c· f(x adv )
                                                                                                      (4)
                                                      s.t. x adv = x+δ ∈ D
                 其中,  δ 是扰动噪声,   c 是一个超参数用来权衡两个损失函数之间的关系,                f(x adv ) 定义见公式  (5):

                                            f(x adv ) = max(max{Z(x adv ) i : i , t}−Z(x adv ) t ,−k)  (5)
                 其中,  Z(·) 是模型的  Softmax  层输出,  t 是目标类别,  k 是控制置信度的超参数.
                  2.2   图像分类模型
                    深度神经网络依然成为图像分类的主流方法. 基于深度神经网络的图像分类模型可以通过端到端的训练, 自
                 主从输入图像数据中学习图像的特征表示和分类决策. 其中卷积神经网络                        (convolutional neural network, CNN) 是
                 最常用于图像分类任务的深度学习模型, 它通过多层卷积和池化来提取图像数据中的局部特征, 然后通过全连接
                 层进行分类决策. 相比于传统的图像分类模型, CNN               能够自主学习到图像更深层次、更高级的特征表示, 从而做
                 出更准确的图像分类决策. 在本文中, 我们在             VGG19 [28] 、DenseNet [29] 和  ConvNeXt  [30] 这  3  个主流的  CNN  分类模
                 型中开展验证试验.
                    VGG19  属于  VGGNet 系列, 由  Simonyan  等人  [28] 于  2014  年提出. 该模型凭借其深层结构和简明的网络架构,
                 在图像分类任务中展现出显著的优势. VGG19             由  16  个卷积层和  3  个全连接层组成, 19   个网络层分布在      6  个模块
   465   466   467   468   469   470   471   472   473   474   475