Page 364 - 《软件学报》2024年第6期
P. 364

2940                                                       软件学报  2024  年第  35  卷第  6  期


                 是一个二分类问题, 即把输入样本分类为“分布内”类或“分布外”类. 本文将这些方法分为两大类. 第                            1  类侧重于设
                 计一些基于阈值的打分函数. 其中, 基于统计的打分函数是比较高效或有效的且与本文最相关的. 基于统计的打分
                 函数  [7,8,24,25] 通常利用  DNN  的隐层或/和输出层所蕴含的信息作为输入来判断样本是否是               OOD  样本. 常见的基于
                 统计的打分函数如基于最大          Softmax  概率  (maximum Softmax probability, MSP) [5,9] 和基于马氏距离  [8] 的打分函数
                 等. 第  2  类方法侧重于重新训练      DNN  以习得更加可分离的表示. Lee 等人        [9] 发现使用围绕在分布内区域附近的辅
                 助  OOD  样本对压缩分布内区域更有效; 他们同时训练分类器和                 GAN [10] , 使分类器在  GAN  生成的“边界”数据上
                                                                 [6]
                 输出均匀分布帮助该校验该分类器的预测信心. 半监督的                   OE 使用大量的、真实世界的辅助             OOD  数据集来训
                 练  DNN; OE  强迫  DNN  在辅助  OOD  数据上数据较低置信度来帮助提升其不确定性估计, 并首次大幅度地提升了
                 检测  OOD  样本的性能. 紧随    OE, 半监督的   SSL [36] 使用额外的多个“拒绝”类别来专门表示         OOD  样本, 并取得了更
                 优的性能. 总的来讲, 检测      (干净) OOD  样本已得到了较多的研究且得到了较好解决.
                    然而, 由于   DNN  自身的脆弱性, 已有工作      [14,15,36] 发现多数先进的  OOD  检测方法对对抗扰动敏感, 易被注入了
                 恶意扰动的对抗      OOD  样本再次绕过. 为了方便后续描述, 本文将有无注入恶意攻击的                    OOD  样本分别称为对抗
                 OOD  样本和干净    OOD  样本. ACET [10] 分析了为什么使用   ReLU  激活函数的   DNN  易对远离分布内的       OOD  样本产
                 生高置信度, 并在辅助的        OOD  样本上引入对抗训练        (AT) 来帮助缓解此问题. ATOM      [36] 根据干净  OOD  样本在
                 DNN  上的置信度, 进一步提出了一种         OOD  样本挖掘策略以提升       OOD  检测的鲁棒性. ACET     和  ATOM  的训练目
                 标可以统一表示如下:
                                    1  ∑ N  (  )      1  [∑  M C  ( )  ∑  M      (     )  ]
                                                                  o
                                                                    o
                                              in
                                                 in
                                                                                  o
                                                                                         o
                              argmin     ℓ(f x ,y )+β·       ℓ(f x ,y )+      ℓ(f x +δ o∗  ,y )       (4)
                                                                                θ
                                                               θ
                                           θ
                                                 i
                                              i
                                                                                         k
                                                                  j
                                                                                  k
                                                                                      k
                                                                     j
                                θ  N   i=1            M    j=1            k=M C +1
                      N  表示  (干净) ID          in          in  的第  i 个  ID  样本  (对应于公式      M  表示辅助  OOD
                 其中,               样本的总数,    x i   表示标签为  y i                      (3) 的   x i  ),
                             M C  表示干净样本的数量       M − M C  表示对抗  OOD           x  表示第  j 个干净  OOD       o
                                                                                o
                 样本的总数量,                         (                  样本的数量),     j                 样本,   y  j
                                                           ϵ
                                                                                                     o
                                o
                      o        x +δ o∗  表示从干净  OOD     x  的   -ball 邻域内搜索到的对抗    OOD  样本. 在  ACET    y  是
                                                        o
                 表示   x  的伪标签,    k  k             样本   k                                         中,
                      j
                 一个  K  维的均匀分布   (假设  ID  训练集包含  K  种类别); 而在  ATOM  中,   y  则表示第  K+1 拒绝类. 与常规  AT  一样, 公式
                                                                      o
                                                                                               (
                 (5) 使用  PGD-K  来最大化训练数据及其标签上的负数据似然以近似求解最优扰动                   δ = argmax   ℓ(f x +δ ,y ) .
                                                                                                    )
                                                                                                      o
                                                                                                o
                                                                                                   o
                                                                                o∗
                                                                                k        ||δ o ||⩽ϵ  θ  k  k  k
                                                                                         k
                                            样本上引入了
                                                                    样本和干净
                                                        AT, 但由于
                 虽然  ACET  和  ATOM  都在  OOD 分类器的任务中, 常规的对抗训练
                                                                                  样本的分布差异, 训练干净
                                                                              OOD
                                                                 ID
                 OOD  样本邻域内的对抗      OOD  样本无法有效地使分布内边界对对抗扰动足够鲁棒. 此外, ALOE                  [12] 和  RATIO [13] 在
                 ID  样本和辅助的干净     OOD  样本上都引入公式      (3) 中的常规   AT  以尝试提升   OOD  检测器的鲁棒性. 然而, 常规的
                 AT  将导致  DNN  在原主任务性能     (即在干净    ID  样本上的分类准确率) 的显著降低, 同样是一种次优的解决方案.
                 本文将   ALOE  和  RATIO  的方法标记为  AT in out  , 并在第  4.2  节对该类方法展开进一步地实验对比和分析.
                  2   研究动机
                    本文首先实证研究训练辅助的对抗             OOD  样本能否有效地使分布内决策边界对对抗扰动真正鲁棒; 然后, 本
                 文验证训练对抗      ID  样本作为辅助的    OOD  样本对分布内边界鲁棒性的影响.
                  2.1   训练辅助的对抗  OOD  样本
                    在常规的训练鲁棒的        DNN                            (AT) 训练由  PGD  攻击生成的对抗扰动可以良
                 好地泛化到其他攻击生成的扰动上, 从而使              DNN  不同类别间的分类边界变得对对抗扰动不敏感. 常规                AT  有效保
                 证了  DNN  对  ID  样本邻域内的对抗扰动的鲁棒性, 但是无法保证在              (与  ID  样本具有语义差别的) OOD     样本上的
                 鲁棒性. 受常规    AT  的启发, 在构建鲁棒的     OOD  检测任务上, 已有方法      [10,36] 训练辅助的对抗  OOD  样本来提升分布
                 内边界对对抗扰动的鲁棒性. 然而, 由于辅助的             OOD  训练集与原    ID  训练集的分布差异, 仅训练干净        OOD  样本邻
                 域内的对抗    OOD  样本并不能足够有效地使分布内边界对对抗扰动鲁棒, 即无法有效地阻止攻击者变异未见过的
                 OOD  样本在某分布内的类别上获取高的            Softmax  预测信心而再次绕过检测. 为了验证的这一关键见解, 我们采用
                 公式  (4) 中的训练目标重新训练       DNN  并使用更强的由     Auto-PGD  优化的攻击来验证: 训练辅助的对抗          OOD  样本
   359   360   361   362   363   364   365   366   367   368   369