Page 363 - 《软件学报》2024年第6期
P. 363

周志阳 等: 谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法                                                2939


                 击算法.
                    (4) 实验结果表明, 在检测由更强的攻击生成的对抗              OOD  样本上, 谛听比已有方法具备显著的性能优势, 同时
                 在分类干净    ID  样本和检测干净     OOD  样本上保持先进的性能.
                    本文第   1  节介绍对抗攻击、对抗训练和分布外样本检测等相关工作. 第                   2  节实证仅训练辅助的对抗        OOD  样
                 本的不足以及训练对抗        ID  样本对提升   OOD  检测器鲁棒性的影响. 第       3 节对本文所提的半监督对抗训练方法——
                 谛听及其实现进行介绍. 第        4  节通过实验验证了所提谛听在保证            OOD  检测器鲁棒性方面的有效性. 最后对本文
                 进行总结与展望.

                  1   相关工作

                  1.1   对抗攻击
                    当  DNN  在各个领域都取得了前所未有的性能, 已有工作              [17] 表明  DNN  容易受到对抗扰动的影响. 随后, 研究人
                 员提出了各种对抗性攻击方法          [17−19,29−35] . FGSM (fast gradient sign method) [18] 使用有关于输入的损失梯度的符号值
                                                     1
                    sign(·) ) 来高效地制作对抗样本. R+FGSM   [36] 引入了一个随机扰动步骤到       FGSM  以增加攻击成功率. 多步迭代的
                 (即
                 BIM [20,32,37] 进一步考虑使用多步梯度迭代. 这些攻击可以归类为术语为           K-步的  projected gradient descent (PGD-K).
                                                       (        (   ( (   ) )))
                                                        k
                                          δ k+1  = Proj ||x ′ −x|| p ⩽ϵ  δ +α· sign ∇ δ kℓ f θ x+δ ,y  (1)
                                                                          k
                      δ  表示第            ( (   k  ) )                 x+δ  及其标签   上的对抗损失       (例如, 交叉熵
                       k
                                                                        k
                                                                                 y
                 其中,         k 步的扰动,    ℓ f θ x+δ ,y  表示受害模型   f θ  在输入
                                    k                                                  表示投影搜索到的对抗
                 损失   ℓ CE  ),   ∇ δ k  表示关于  δ  的梯度,   α 表示攻击步长,   ||·|| p   表示  L p   Norm  约束,   Proj ||x ′ −x|| p ⩽ϵ

                                   ϵ
                                                               0
                      ′                                  0    δ  ⩽ ϵ  . 此外, 如果把公式     y 换成其他非正确
                 样本   x  到干净样本   x 的   -ball 上. 初始的随机扰动  δ  满足                      (1) 中的
                                                                 p
                                   ℓ 的符号, 则公式    (1) 将变成有目标的攻击. 为了识别虚假的防御            [38] 如蒸馏防御  [39] , CW [40]
                 类别的标签并反转损失
                 攻击直接攻击     DNN  的  logits 层输出  (即最后一层施加   Softmax  激活函数之前).
                                                ℓ CW = −(z θ (x+δ) y −max(z θ (x+δ) i ))              (2)
                                                               i,y
                 其中,    z θ (x+δ) y   表示与标签  y 对应的  logit,   max i,y (z θ (x+δ) i ) 表示除   z θ (x+δ) y  外最大  logit. 为了进一步提升攻击能力,
                 文献  [41] 提出了多目标    (multi-targeted) 的  PGD  攻击, 其轮流使用其他非正确的类作为攻击目标来执行攻击. 最近
                 的文献   [28] 提出了  Auto-PGD, 其集成了“动量更新”“攻击重启动”和“攻击步长自动调整”到               PGD  中; Auto-PGD  攻
                 击可以更有效地使搜索避免陷入局部最优点, 在鲁棒性研究领域被广泛地应用于评估                             DNN  分类器的鲁棒性. 此
                 外, 检测-感知的自适应攻击        (adaptive attack) 及其变种  [27,36] 广泛地用于检测对抗  (ID) 样本的评估. 在本文中, 我们
                 结合自适应攻击和       Auto-PGD  开发更强的攻击来评估      OOD  检测器的鲁棒性, 以避免对        OOD  检测器的过高估计.
                  1.2   对抗训练
                    为了防御对抗攻击, 研究者们提出了多种防御方法                [18,20,23,24,29,39] . 然而, 此中大多数的防御被证明都只是呈现了
                 如梯度混淆    [38] 的虚假安全, 并被后来更强的攻击击败, 几乎只有经验性的对抗训练                  (adversarial training, AT) [18,20] 可
                 以有效地保证     DNN  的真正鲁棒性    [38,42] . AT  将对抗样本视为干净  ID  样本的一种数据增强来训练       DNN. AT  的  min-
                 max  框架如下.
                                                       ∑ N
                                                argmin     maxℓ(f (x i +δ i ),y i )                   (3)
                                                                θ
                                                  θ  N   i=1||δ|| p ⩽ϵ
                 其中, N  是训练样本的数量,      x i  表示第  i 个干净样本,   ℓ 一般指交叉熵损失. 在公式     (3) 的内部  max  中, PGD-K  攻击
                                        ∗
                 常用于近似地搜索最优扰动          δ  . AT  使  DNN  习得对抗性扰动的不变性. 然而, 正如文献         [22] 所指出的, AT  强制
                                        i
                 DNN  忽略那些与标签弱相关的特征          (即那些易受扰动干扰的、难以察觉的特征) 来进行预测, 导致                   DNN  在干净
                 样本上的准确率显著下降.
                  1.3   分布外样本检测
                    随着  DNN  可靠性受到越来越多的关注, 研究者们提出了大量的方法来检测                      OOD  样本的  [4] . 检测  OOD  样本
   358   359   360   361   362   363   364   365   366   367   368