Page 365 - 《软件学报》2024年第6期
P. 365

周志阳 等: 谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法                                                2941


                 是否能有效地使      OOD  检测对对抗扰动鲁棒? 我们使用          Auto-PGD  系列的强攻击来攻击训练过程中使用过的对抗
                 OOD  样本所对应的干净      OOD  样本以生成验证的对抗        OOD  样本. 这种验证的对抗       OOD  样本生成方法排除掉了
                 验证的干净    OOD  样本与训练所使用的干净         OOD  样本之间的潜在分布差异的干扰, 降低了检测对抗                OOD  样本的
                 难度. 如此一来, 如果所训练的检测器不能有效地检测这些验证的对抗                      OOD  样本, 则说明仅训练对抗       OOD  样本
                 对提升   OOD  检测的鲁棒性是不足的.
                    我们选择在     CIFAR10 [43] 上训练的  WRN-40-4 [44] 模型, 报告其平均  MSP (mean of MSP, MMSP) 分数以及  AUC
                                                                                              o
                                                        in
                 和  TPR-95  度量指标下的检测性能. 表     1  中, MMSP 表示在干净    ID  测试集上的   MMSP  分数, MMSP 表示在    OOD
                                       o
                                                                              o
                 样本上的   MMSP  分数, Clean 表示在辅助的干净       OOD  样本上的训练性能, PGD 表示在        (PGD  生成的) 对抗  OOD
                                              o
                 样本上的训练性能, APGD 和     o  ACW 我们基于      Auto-PGD  开发的更强的攻击. 关于训练设置、度量指标以及
                             o
                 APGD 和 o  ACW 攻击的详细介绍在第       4.1  节给出. 如表  1  所示, ACET  和  ATOM  在  Clean 和 o  PGD 上的检测性能
                                                                                            o
                 都接近完美, 证明当前训练在辅助的干净              OOD  样本和对抗    OOD  样本上已经良好地收敛. 然而, 当使用更强的
                 APGD 和 o  ACW 攻击相同的辅助     OOD  样本后, ACET  和  ATOM  的性能都出现了大幅度的下降, 甚至接近被完全
                             o
                 攻破. 攻击后的更大的      MMSP 分数几乎无法用以区分干净            ID  样本和这些验证    OOD  样本. 该实验表明, 仅训练辅
                                        o
                 助的对抗    OOD  样本并不能足够有效地使分布内边界对对抗扰动鲁棒, 即无法有效地阻止攻击者变异                            OOD  样本
                 在  (原分布内) 某类别上获取高的        Softmax  预测信心来再次绕过检测. 在测试阶段, 对抗           OOD  样本一般是从与辅
                 助的  OOD  样本存在潜在的分布差异的测试           OOD  样本上生成的, 检测这些未见过的恶意           OOD  样本将更具挑战性.

                    表 1    训练辅助的对抗    OOD  样本对检测验证的对抗        OOD  样本的性能 (↓表示越小越好, ↑表示越大越好)

                                   Clean o             PGD o             APGD o              ACW o
                  方法 MMSP  in        AUC TPR-95         AUC TPR-95         AUC TPR-95         AUC TPR-95
                                                                                           o
                                                    o
                                 o
                                                                       o
                            MMSP  (↓)          MMSP  (↓)           MMSP  (↓)          MMSP  (↓)
                                    (%) (↑) (%) (↑)    (%) (↑) (%) (↑)     (%) (↑) (%) (↑)    (%) (↑) (%) (↑)
                 ACET 0.957 0  0.106 3  99.56  99.88  0.104 6  99.28  99.98  0.909 0  14.77  10.70  0.810 0  29.17  22.47
                 ATOM 0.959 9  0.000 4  99.51  100.0  0.000 2  99.57  100.0  0.999 9  2.06  0  0.999 9  2.06  0

                  2.2   训练“近  OOD”样本——对抗   ID  样本  (5) 所训练的模型在
                    从干净   ID  样本的邻域内创建的对抗        ID  样本与干净   ID  样本享有近乎一样的语义信息, 是一种离分布内区域
                 更“近”的  OOD  样本. 本节使用辅助的对抗        ID  样本而不使用任何辅助的对抗         OOD  样本来训练    DNN, 以调查其对
                 提升  OOD  检测鲁棒性的作用.
                                       1  ∑ N [  (  )       (      )  ]  1  ∑ M   ( )
                                                   in
                                                                     o
                                                                                      o
                                                      in
                                                              in
                                                                                   o
                                 argmin       ℓ(f x ,y )+ℓ(f x +δ in∗  ,y ) +  ℓ(f x ,y )             (5)
                                                              i
                                                           θ
                                                                 i
                                                θ
                                                                                      j
                                                      i
                                                   i
                                                                                   j
                                                                                 θ
                                                                     i
                                    θ  2N   i=1                          M   j=1
                                                                  in
                 其中, N  和  M  分别表示干净   ID  样本和干净  OOD  样本的数量,    x +δ in∗  表示从第  i 个  ID  样本创建的对抗  ID  样本,
                                                                  i   i
                 x  表示第  j 干净  OOD  样本,   y    o  是带多个额外的拒绝类  [11] 的伪标签.   δ    in∗  的求解与公式  (3) 类似. 公式  (5) 为
                  o
                  j                                                       i
                                             o
                  in
                 x +δ in∗   标注了与  x in   不同的伪标签  y  , 这使得  DNN  能够更好地学习干净  ID  样本与其对抗   ID  样本的差异, 对扰
                  i  i         i             i
                                                         in
                 动  δ in∗  建模. 需要注意的是公式  (5) 中对抗  ID  样本  x +δ in∗  也是在  DNN  每次的参数迭代步骤中依据当前阶段的
                    i
                                                             i
                                                         i
                 DNN  模型而实时生成的, 能更好地“覆盖”分布内每一类别的决策边界.
                    与表  1  中的结果相比, 表    2  中使用公式                   APGD 和 o  ACW 强攻击下具备显著的性能优势,
                                                                               o
                 即便其从未使用任何辅助的对抗            OOD  样本来训练    DNN. 该实验说明了训练对抗        ID  样本对提升分布内决策边界
                 鲁棒性的作用同样是至关重要的, 在构建鲁棒的               OOD  检测器中不应被忽略.

                                          表 2    训练对抗  ID  样本对检测  OOD  样本的影响

                                   o                   o                    o                   o
                               Clean                PGD                APGD                 ACW
                      in
                 MMSP           AUC TPR-95           AUC TPR-95          AUC TPR-95           AUC TPR-95
                                                                                          o
                            o
                                                 o
                                                                     o
                        MMSP  (↓)           MMSP  (↓)           MMSP  (↓)            MMSP  (↓)
                                (%) (↑) (%) (↑)     (%) (↑) (%) (↑)      (%) (↑) (%) (↑)     (%) (↑) (%) (↑)
                  0.900 1  0.027 2  99.20  97.53  0.002 2  99.98  99.99  0.529 9  71.82  40.89  0.534 3  71.55  40.46
   360   361   362   363   364   365   366   367   368   369   370