Page 367 - 《软件学报》2024年第6期
P. 367

周志阳 等: 谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法                                                2943


                 准确率显著下降, 且能同时使得分布内边界邻域内的扰动可被检测.
                  3.3   对抗扰动搜索策略
                    搜索对抗扰动是求解        AT  的内部  max  的一个关键步骤. 例如, 在常规的        AT  中, 训练由  PGD  攻击搜索的对抗
                 样本能比由有目标的       PGD  攻击和  CW  攻击生成的对抗样本获得更好的鲁棒性              [42] . 因此, 如何搜索公式  (8) 中的对

                 抗扰动  δ in∗  和  δ o∗  同样至关重要. 对于公式  (8) 中的从  ID  扰动生成的对抗  ID  扰动  δ in∗  , 本文遵循常规的  AT, 使用  PGD
                       i    j                                                 i
                                in  in          in                            in∗           ( (  in  in )  in  )
                 攻击来最大化输入      x +δ  及其真实标签    y  上的分类损失以近似地搜索最优扰动:          δ  = argmax   ℓ f θ x +δ ,y   .
                                i  i            i                             i        ||δ in || ⩽ϵ  i  i  i
                                                                                        i  p
                 对于公式    (8) 中的对抗  OOD  扰动  δ o∗   , 本文通过最小化   f θ  在  V  个拒绝类上的最大  Softmax  预测信心来创建扰动,
                                            j
                 所对应的对抗损失如下:
                                  (             (             ))     (   (             ))
                                    (    )         (    )                  (     )
                                         o
                                                                             o
                                                    o
                                      o
                                 ℓ f θ x +δ ,argmax f θ x +δ o∗ j  = −log max f θ x +δ o j            (9)
                                      j
                                         j
                                                                             j
                                                    j
                                                         [K+1:K+V]               [K+1:K+V]
                       (     )
                         o
                      f θ x +δ o∗       f θ  在最后  V  个拒绝类上的  Softmax  预测输出. 通过使用  PGD     δ = argmax
                                                                                           o∗
                 其中,                表示                                                求解            o  −
                         j  j                                                              j       ||δ j || ⩽ϵ
                              [K+1:K+V]                                                              p
                         (     )
                           o
                                                                                                   o
                 log(max( f θ x +δ o j  [K:K+V]  ))  , 可以近似地得到能使   f θ  在额外拒绝类上输出最小预测信心的对抗  OOD  样本  x +δ o∗ j   .
                                                                                                   j
                           j
                 另一种直观的搜索对抗        OOD  扰动的策略是直接最大化         OOD  样本的   MSP  分数. 这种策略相当于把      OOD  样本在
                 前  K  类内具有最大预测信心的类, 作为攻击目标, 是一种有目标的攻击, 所获得的扰动不具备“普适性”, 并不能很
                 好地使   OOD  检测器鲁棒. 本文将在第      4.3.3  节的消融研究中对比这两种策略对          OOD  检测器鲁棒性的影响.
                  4   实验分析
                                                          L ∞   Norm  约束下的攻击. 接下来, 我们在第    4.1  节介绍实验设
                    遵循鲁棒性研究领域主流的设置, 本文同样考虑
                 置, 在第  4.2  节中提供主要实验结果与分析, 最后在第          4.3  节中进行消融实验.
                  4.1   实验设置
                  4.1.1    数据集
                    关于分布内数据集、辅助的分布外训练集和分布外测试集, 本文遵循大多数工作                           [6,11,15,16] 中的主流设置, 所选
                 择的开源数据集如下.                           SVHN, 本文将
                    (1) 分布内数据集. 本文选择       SVHN  [45] 、CIFAR10  和  CIFAR100 [43] 这  3  种数据集作为分布内数据集. 其中,
                 SVHN  是一个包含   0–9 数字的门牌号数据集, 其训练集和测试集分别包含               73 257 张和  26 032 张  32×32 的彩色图片;
                 CIFAR10  由真实世界中    10  种不同的物种组成, 训练集和测试集分别有              50 000  张和  10 000  张  32×32  彩色图像;
                 CIAFR100  与  CIFAR10  类似, 所不同的是  CIFAR100  包含  100  类  60 000  张图片.
                    (2) 辅助的分布外训练集. 本文使用包含          8 000  万张  32×32  的彩色图片的  80 Million Tiny Images [46] 作为辅助的
                 分布外训练集. 该数据集在防御和检测等研究领域中被大多数的半监督训练方法广泛采用. 在训练时, 本文遵
                 循  [6,11,15,16] 的方法, 同样把  80 Million Tiny Images 中与分布内数据集“雷同”的数据排除掉  (先前的工作已经提供了
                 需要排除的    id  列表, 我们只需要依据该列表相应地排除辅助样本即可).
                    (3) 分布外测试集. 默认情况下, 本文选择          5  种分布外测试集: Places365   [47] 、Textures [48] 、iSUN [49] 、LSUN
                 (crop) 和  LSUN (resize) [50] . 如果分布内训练集是         CIFAR10  和  CIFAR100  的测试集视作分布外测试
                 集; 以此类推, 如果分布内训练集是         CIFAR10  或  CIFAR100, 本文同样将  SVHN  的测试集视作分布外测试集. 本文
                 混合这   6  或  7  种分布外测试集来构建一个混合的分布外测试集, 用以模拟真实世界中的分布外样本数据. 在接下
                 来的实验中, 如无特别说明, 本文默认报告检测器在该混合的分布外测试集上的检测性能.
                  4.1.2    训练设置
                    遵循文献    [16], 本文选择  WRN-40-4 [44] 模型并使用  SGD  优化器来执行训练. SGD      优化器的设置如下: 动量
                 0.9, 权重衰减  0.000 5, 初始学习率  0.1. 在所有训练集上, 我们将超参       β  设为  1, 并将  ID  数据和辅助的  OOD  数据的
                 batch size 都设为  128. 额外拒绝类的数量  V  在  SVHN、CIFAR10 和  CIFAR100 上分别设置为   4、10 和  35. 在  SVHN
                 上, 我们训练   50  个  epochs, 并在第  25  和第  40  个  epoch  时将学习率分别除以  10; 在  CIFAR10  和  CIFAR100  上,
   362   363   364   365   366   367   368   369   370   371   372