Page 362 - 《软件学报》2024年第6期
P. 362

2938                                                       软件学报  2024  年第  35  卷第  6  期


                 的  ID  样本和干净  OOD  样本来训练    DNN.
                    这些方法都声称在辅助         OOD  样本上应用    AT  提升了  OOD  检测的鲁棒性. 然而, 由于辅助的         OOD  训练集与
                 原  ID  训练集的分布差异, 本文发现训练辅助的干净            OOD  样本邻域内的对抗      OOD  样本不能有效地使分布内决策
                 边界对更强的攻击鲁棒         (详见第  2  节的实证); 在  ID  样本上直接应用常规的       AT  会导致原主任务性能       (即在干净
                 ID  样本上的分类准确率) 显著降低, 同样是一种次优的解决方案. 从                 ID  样本邻域内生成的对抗       ID  样本拥有与原
                 干净  ID  样本近乎一致的语义信息        (例如, 一张被注入对抗扰动的“猫”的照片在视觉上与其原干净照片近乎一样),
                 离分布内区域更近, 是一种“近         OOD”样本. 与对抗样本检测       [5,7,8,20,23−27] 研究领域类似, 本文把对抗  ID  样本视为一
                 种辅助的“近    OOD”样本, 提出一种半监督对抗训练方法——谛听, 来构建鲁棒的                    OOD  检测器, 用以同时检测干
                 净  OOD  样本和对抗   OOD  样本. 谛听不仅使用辅助的干净          OOD  样本和对抗    OOD  样本, 也同时使用辅助的对抗
                 ID  样本来联合训练    DNN.
                    图  1  展示了谛听的直观示例图, 其中, 最后一层中的虚线节点是在                 DNN  的最后一层添加的用于表示分布外
                 样本  (对抗  ID  样本、干净   OOD  样本和对抗    OOD  样本) 的拒绝类. 图   1  中假设原训练集真实类别的数量为            2, 额
                 外拒绝类的数量也为        2. 在步骤  1  中, 我们固定住  DNN  的权重参数    θ , 使用  (干净) ID  样本  x in  和辅助的干净  OOD
                     样本上比已有方法具备显著的性能优势, 同时在原分类干净
                                                                                        1
                                                                  o
                                                               o
                                           in
                      o
                 样本  x  来分别创建对抗     ID  样本  x +δ in  和对抗  OOD  样本  x +δ   (详见第  3.2  节). 在步骤  2  中, 我们为对抗  ID  样
                      1                    1   1               1  1
                                                              T
                                                                                 in
                    in
                   x +δ in  设置了与其原  ID    x in          [0,0,1,0]   (详见第  3.1    x +δ in  x in  成对地喂入  DNN,
                 本   1  1             样本   1   不同的伪标签                    节), 并将   1  1   和   1
                 以使  DNN                           δ in  ; 与此同时, 干净  OOD  x  及其对抗   OOD     x +δ  都标注了
                                                                                                o
                                                                           o
                                                                                             o
                         能够更好地学习它们之间的差异
                                                    1                 样本   1            样本   1  1
                             T
                                                                  o
                 伪标签   [0,0,1,0]  , 这使  DNN  在  OOD  样本上习得对对抗扰动  δ  的不变性以及对     ID  样本的差异. 需要注意的是,
                                                                  1
                                                             T
                 在常规   AT  中,   x +δ in 1   分配了与  x in 1   相同的标签  [1,0,0,0]  ; 而在谛听中,   x +δ in 1   的伪标签是  [0,0,1,0]  (即位于拒
                                                                                               T
                              in
                                                                          in
                              1
                                                                          1
                 绝类上), 这使得谛听并不强迫         DNN                δ in  的细微特征, 从而不会引起     DNN  在原分类任务上的干
                                             忽略那些“类似于”
                                                             1
                 净准确率显著下降.

                                                                                             in  in  in
                                                                                            x 1  x 1 +δ 1
                                                                                          的标签 的标签
                                                              in
                       ID                                  ID (x 1 )
                       (x 1 )                                                               1    0
                        in
                                                 对抗       对抗 ID
                                                    in      in  in                          0    0
                                                扰动 δ 1    (x 1 +δ 1 )
                                                                                            0    1
                                            冻结 θ                                     调整 θ   0    0
                                                                                             o   o  o
                                                                                            x 1  x 1 +δ 1
                                                                                          的标签 的标签
                                                  对抗     对抗 OOD                             0    0
                                                     o     (x 1 +δ 1 ) o
                                                            o
                      干净                         扰动 δ 1                                     0    0
                     OOD                                  干净 OOD                            1    1
                       o
                      (x 1 )                                                                0    0
                                                             o
                                                            (x 1 )
                                  步骤 1: 冻结 θ 以搜索对抗扰动
                                                                                  步骤 2: 调整 θ 以训练 DNN
                                                   图 1 谛听的直观示例图

                    为了可靠地评估       OOD  检测器的鲁棒性以避免过高评估, 本文基于先进的                Auto-PGD [28] 搜索算法开发更强的
                 攻击来评估     OOD  检测器的鲁棒性. 实验表明, 谛听在检测由强攻击               (即  Auto-PGD  系列的攻击) 所产生的对抗
                 OOD                                                ID  样本和检测干净     OOD  样本上保持先进的性
                 能. 本文工作开源地址: https://gitee.com/zhiyang3344/diting. 总体而言, 本文贡献如下.
                    (1) 本文首次揭示, 训练辅助的对抗          OOD  样本无法足够有效地使得分布内边界对对抗扰动鲁棒, 训练对抗
                 ID  样本作为辅助的    OOD  样本能有效地提升      OOD  检测器的鲁棒性.
                    (2) 本文提出一种用于提升        OOD  检测器鲁棒性的半监督对抗训练方法——谛听, 其不仅使用辅助的干净
                 OOD  样本和对抗    OOD  样本, 也使用辅助的对抗      ID  样本作为  OOD  样本来联合地训练       DNN, 用以提升   OOD  检测
                 的鲁棒性. 不同于常规的对抗训练, 谛听并不会显著地损害                 DNN  分类器在原分类任务上的性能.
                    (3) 基于先进的   Auto-PGD  算法, 本文开发并开源了一系列用于评估            OOD  检测器鲁棒性的、攻击力更强的攻
   357   358   359   360   361   362   363   364   365   366   367