Page 366 - 《软件学报》2024年第6期
P. 366

2942                                                       软件学报  2024  年第  35  卷第  6  期


                  3   所提训练方法——谛听

                    在介绍谛听的训练目标之前, 本节首先介绍谛听中为分布外样本标注伪标签的方法以及所使用的用于区分
                 ID  样本和  OOD  样本的打分函数.
                  3.1   伪标签标注及打分函数
                    在检测干净     OOD  样本任务上, SSL   [11] 证明使用额外的多个拒绝类来表示          OOD  样本比使用均匀分布更具优
                 势. 本文旨在同时检测干净        OOD  样本和对抗    OOD  样本, 这表明谛听所要应对的分布外样本更具多样性的特点.
                 鉴于此, 本文同样考虑为       DNN  分类器的最后一层添加多个拒绝类来表示分布外样本. 形式化地, 本文所考虑的带
                 多个拒绝类的伪标签标注方法如下:
                                                    (   )             (   )
                                              argmaxf θ x clean  , 如果argmaxf θ x clean  > K
                                             
                                          o  
                                         y =                                                         (6)
                                             
                                               random[K,K +V], 否则
                 其中,   x  clean  表示干净  ID  样本或干净  OOD  样本, K  表示原  ID  训练集中真实类别的数量, V  表示额外拒绝类的数量,
                                                      OOD
                 random[K,K +V] 表示取  [K, K+V] 内的随机整数   (此处假设类别索引从        1  开始编号, 由于谛听中辅助样本的伪标
                 签是训练过程中自动标注的, 所以严格来讲谛听是一种自监督的对抗训练方法                          (框架)). 对于对抗    ID  样本和对抗
                 OOD  样本, 我们使用它们的原干净        ID  样本和干净   OOD  样本来构建它们的伪标签. 使用干净           OOD  样本来为对抗
                 OOD  样本构造伪标签相当于鼓励          DNN  在  OOD  样本上习得对对抗扰动的不变性; 而为对抗            ID  样本标注不同于
                 其原干净    ID  样本的伪标签则有利于       DNN  学习干净   ID  样本与其对抗    ID  样本的差异. 在第   4.4.3  节, 我们将实验
                 性地验证使用多拒绝类来表示分布样本有利于增加攻击的难度.
                    关于检测/打分函数, 本文遵循文献          [6,15], 使用基于最大   Softmax  概率  (MSP) 的打分函数. 假设训练集包含样
                 本的真实类别为      K, 则本文的   MSP  打分函数为:
                                                                (     )
                                                   
                                                    ID, 如果max f θ (x) [1:K] > τ
                                                   
                                                   
                                                                                                      (7)
                                              D(x) : 
                                                   
                                                     OOD,否则
                 其中,    f θ (x) [1:K]   表示  f θ (x) 前  K  维的真实类别内的最大  Softmax  预测概率,   τ 是测试阶段指定的分数阈值. 对于  ID
                 样本的预测结果, 只需取前        K  类内最大  Softmax  预测概率的类别即可, 即      argmaxf θ (x ) [1:K]  . 此外, 其他更先进的打
                                                                                  in
                 分函数也可以应用于本文所训练的模型上以获得更好的性能.
                  3.2   训练目标
                    在第  2.2  节, 我们的实验结果验证了训练辅助的对抗            ID  样本作为  OOD  样本对提升分布内边界鲁棒性的有效
                 性. 在谛听中, 我们考虑同时训练辅助的对抗            ID  样本、干净   OOD  样本以及对抗     OOD  样本:
                               1  ∑ N [  (  )       (     )  ]    1  [∑ M   ( )       (     )   ]
                                                            o
                                                                                o
                                                     in
                                                                                              o
                                                                                        o
                                                                             o
                                          in
                                             in
                         argmin      ℓ(f x ,y )+ℓ(f x +δ in∗  ,y ) +β·   ℓ(f x ,y )+ℓ(f x +δ o∗  ,y )  (8)
                                                                                           j
                                                                           θ
                                                     i
                                                                                              j
                                                                                        j
                                                                             j
                                                            i
                                                        i
                                                                                     θ
                                                                                j
                                             i
                                          i
                                        θ
                                                   θ
                           θ  2N   i=1                            M    j=1
                 其中, N  表示原  ID  训练集样本的总数量, M     表示辅助    OOD  样本的数量,    β 用于控制原    ID  训练数据  (即干净  ID  样
                 本及其对抗    ID  样本) 和辅助  OOD  数据  (即干净       样本和对抗    OOD                   o  y  都是根据公
                                                                                              o
                                                                                          y  和
                                                                         样本) 的均衡, 伪标签
                                                                                          i   j
                 式  (6) 构建的, 其他符号的含义与公式       (4) 和公式  (5) 中的一致.
                    公式  (8) 中的第  1  项为对抗  ID  样本  x +δ in∗   标注了不同于  x in   的伪标签  y  , 用以使  DNN  学习干净  ID  样本与
                                                                            o
                                                 in
                                                 i   i             i        i
                 其对抗   ID  样本之间的差异; 第    2  项中, 使用干净   OOD  样本来为对抗     OOD  样本的构建伪标签并把它们同时输入
                 DNN, 使得  DNN  在  OOD  样本上更好地习得对对抗扰动的不变性; 同时, 干净             OOD  样本和对抗    OOD  样本的伪标
                 签使得   DNN  在它们上习得相对于       ID  数据的不同. 结合公式     (8) 的第  1  项和第  2  项可以看到, 其最终使  DNN  对分
                 布外的样本    (即对抗   ID  样本、干净   OOD  样本和对抗    OOD  样本) 习得不同于干净      ID  样本的统一的“认知”. 与公
                 式  (3) 中的常规对抗训练相比, 公式       (8) 中  x +δ in∗   的伪标签  y  并不会强迫  DNN  完全忽略那些与真实标签弱相关
                                                  in
                                                                o
                                                  i   i         i
                 的特征, 即与   δ in∗  “类似”的、难以察觉的特征来做决策. 因此, 公式         (8) 并不会导致    DNN  在干净  ID  样本上的分类
   361   362   363   364   365   366   367   368   369   370   371