Page 371 - 《软件学报》2024年第6期
P. 371

周志阳 等: 谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法                                                2947


                  4.3.1    额外拒绝类的数量
                    多个额外的拒绝类表达了分布外空间的多样性, 本节固定其他所有的设置, 调查不同的                             V  的设置对  OOD  检
                 测器鲁棒性的影响. 实验结果如表           6  所示  (比较参数均越大越好), 当      V  为  10  时, OOD  检测器取得最好的鲁棒性
                 能, 过小或过大的     V  都不能取得最优的鲁棒性能. SSL        声称适当多的拒绝类对提升检测干净              OOD  样本的性能有
                 利, 本实验进一步证实适当多的拒绝类对提升              OOD  检测的鲁棒性同样有利.

                                       表 6    变动拒绝类数量对检测对抗        OOD  样本的影响 (%)

                       Clean o      PGD o       CW o        APGD o      ACW o       APGD t       ACW t
                  V
                     AUC TPR-95  AUC TPR-95  AUC TPR-95  AUC TPR-95  AUC TPR-95  AUC TPR-95   AUC TPR-95
                  5  98.81  97.01  97.63  97.01  97.62  97.01  84.84  64.84  87.16  69.16  86.09  61.10  87.83  65.60
                 10 98.89  96.62  97.81  96.62  97.81  96.62  96.89  95.13  97.17  95.46  94.18  78.84  95.07  84.15
                 15 98.88  96.23  98.12  96.23  98.13  96.22  85.25  71.50  87.98  75.64  87.78  69.51  90.77  78.23

                  4.3.2    取消训练对抗  ID  样本或对抗  OOD  样本
                    本节首先取消训练对抗         OOD  样本, 保持其他设置不变, 以验证训练辅助的对抗              ID  样本作为   OOD  样本对提
                 升分布内决策边界的鲁棒性的作用. 然后, 我们只取消训练对抗                   ID  样本, 保持其他设置不变, 以验证仅训练辅助的
                 对抗  OOD  样本对带有多拒绝类的检测器鲁棒性的影响.
                    实验结果如表      7  所示  (比较参数均越大越好), 其中, Org.指谛听, “-ADV OOD”表示在谛听的基础上取消训
                 练对抗   OOD  样本, “-ADV ID”指在谛听的基础上取消训练            ID  样本. 当取消训练对抗      OOD  样本后, “-ADV
                 OOD”在  Auto-PGD  攻击下的检测性能虽然出现较明显的下降, 但是依然未被完全攻破, 这证明了训练对抗                          ID  样
                 本作为辅助的     OOD  样本对提升分布内边界鲁棒性的有效性. 取消训练对抗                   ID  样本后, 谛听的训练目标变得与
                 ACET  和  ATOM  类似, 所不同的是它的伪标签是带多个拒绝类的伪标签. 对比“-ADV ID”与表               3 中的  ACET  和  ATOM,
                 “-ADV ID”在  Auto-PGD  系列攻击下的性能依然显著好于它们, 这证明了使用多个拒绝边界比使用单个拒绝边
                 界  (例如  ATOM) 或者为分布外样本分配均匀分布           (例如  ACET) 对提升分布内边界的鲁棒性更有效.
                                                         PGD
                              表 7    取消训练对抗    ID  样本或对抗  OOD  样本对   OOD  检测鲁棒性的影响 (%)

                              Clean o    PGD o       CW o      APGD o      ACW o      APGD t     ACW t
                   Method
                           AUC TPR-95  AUC TPR-95  AUC TPR-95  AUC TPR-95  AUC TPR-95  AUC TPR-95  AUC TPR-95
                    Org.   98.89  96.62  97.81  96.62  97.81  96.62  96.89  95.13  97.17  95.46  94.18  78.84  95.07  84.15
                 -ADV OOD 98.92  96.15  98.91  96.09  98.90  96.05  62.54  29.82  63.97  43.38  47.96  14.6  59.2  25.0
                  -ADV ID  99.16  97.02  99.11  96.97  99.11  96.97  58.30  42.24  58.53  42.16  47.42  27.14  48.27  29.71

                  4.3.3    变更对抗  OOD  样本搜索策略
                    在谛听训练过程中, 我们通过最小化多个额外的拒绝类的最大                     Softmax  预测概率来创建对抗     OOD  样本. 在本
                 节中, 我们最大化     OOD  样本在前    K  类内的最大    Softmax  预测概率  (MSP  分数) 来搜索对抗扰动, 以研究其对
                                                                                    (   (          ))
                                                                                           (    )
                                                                                            o
                 OOD  检测鲁棒性的影响. 具体而言, 我们通过使用                 攻击优化    δ = argmax ||δ j || ⩽ϵ  log max f θ x +δ o j   来搜
                                                                      o∗
                                                                               o
                                                                      j
                                                                                            j
                                                                                p               [1:K]
                                (    )
                                              o
                                                 o
                                  o
                 索对抗扰动, 其中     f θ x +δ o j  [1:K]   表示  x +δ  在前  K  类内的最大  Softmax  预测信心.
                                              j
                                                 j
                                  j
                    实验结果如表      8  所示  (比较参数均越大越好), 其中      Max-MSP  表示最大化   MSP  分数搜索对抗扰动. 在无目标
                 的  Auto-PGD  系列攻击下, Max-MSP  与原谛听的检测性能差距不是很大; 但当使用多目标的                  APGD 和 t  ACW 攻
                                                                                                      t
                 击后, Max-MSP  的检测性能出现了明显下降. 直接最大化             OOD  的  MSP  分数可以视为一种有目标的攻击, 其攻击
                                                                                                     o
                 目标是当前     OOD  样本在前   K  类内具有最大预测信心的类别. 训练此类扰动可以有效阻止无目标的                       APGD 和
                 ACW 攻击, 因为它们同样是基于当前           OOD  样本的前   K  类内具有最大    Softmax  预测概率的类别来发起攻击的. 然
                     o
                                      t
                 而, 当使用  APGD 和 t  ACW 攻击时, 它们的攻击目标轮流设置为其他非最大               Softmax  预测概率的类别, Max-MSP
                 的性能会出现显著下降.
   366   367   368   369   370   371   372   373   374   375   376