Page 284 - 《软件学报》2024年第4期
P. 284

1862                                                       软件学报  2024  年第  35  卷第  4  期


                 Abstract:  Nowadays, deep neural networks (DNNs) have been widely used in various fields. However, research has shown that DNNs are
                 vulnerable  to  attacks  of  adversarial  examples  (AEs),  which  seriously  threaten  the  development  and  application  of  DNNs.  Most  of  the
                 existing  adversarial  defense  methods  need  to  sacrifice  part  of  the  original  classification  accuracy  to  obtain  defense  capability  and  strongly
                 rely on the knowledge provided by the generated AEs, so they cannot balance the effectiveness and efficiency of defense. Therefore, based
                 on  manifold  learning,  this  study  proposes  an  origin  hypothesis  of  AEs  in  attackable  space  from  the  feature  space  perspective  and  a  trap-
                 type  ensemble  adversarial  defense  network  (Trap-Net).  Trap-Net  adds  trap  data  to  the  training  data  based  on  the  original  model  and  uses
                 the  trap-type  smoothing  loss  function  to  establish  the  seducing  relationship  between  the  target  data  and  trap  data,  so  as  to  generate  trap-
                 type  networks.  In  order  to  address  the  problem  that  most  adversarial  defense  methods  sacrifice  original  classification  accuracy,  ensemble
                 learning is used to ensemble multiple trap networks, so as to expand attackable target space defined by trap labels in the feature space and
                 reduce  the  loss  of  the  original  classification  accuracy.  Finally,  Trap-Net  determines  whether  the  input  data  are  AEs  by  detecting  whether
                 the data hit the attackable target space. Experiments on MNIST, K-MNIST, F-MNIST, CIFAR-10, and CIFAR-100 datasets show that Trap-
                 Net  has  strong  defense  generalization  of  AEs  without  sacrificing  the  classification  accuracy  of  clean  samples,  and  the  results  of
                 experiments  validate  the  adversarial  origin  hypothesis  in  attackable  space.  In  the  low-perturbation  white-box  attack  scenario,  Trap-Net
                 achieves  a  detection  rate  of  more  than  85%  for  AEs.  In  the  high-perturbation  white-box  attack  and  black-box  attack  scenarios,  Trap-Net
                 has  a  detection  rate  of  almost  100%  for  AEs.  Compared  with  other  detection  methods  of  AEs,  Trap-Net  is  highly  effective  against  white-
                 box and black-box adversarial attacks, and it provides an efficient robustness optimization method for DNNs in adversarial environments.
                 Key words:  deep neural network (DNN); adversarial example; ensemble learning; adversarial defense; robustness optimization

                    深度神经网络      (deep neural network, DNN) 作为人工智能最杰出的代表, 已被应用于图像分类、目标检测、语
                 言识别等各个领域       [1−3] , 并且在这些领域展现出强大的性能. 然而研究表明, DNN            极易受到对抗样本的攻击. 对抗
                 样本通过向干净样本添加特殊对抗攻击算法所生成的微小对抗扰动, 可以在不影响人类正常视觉辨别的同时使
                 DNN  产生分类错误, 是    DNN  安全领域的一大盲点. 因而提高          DNN  对对抗样本的防御能力, 提高         DNN  的对抗鲁
                 棒性, 对  DNN  的后续研究和应用具有重大意义.
                    对抗样本的成因是对抗防御的一个重要前提. Szegedy               等人  [4] 认为训练数据不足导致      DNN  只能学习到目标
                 数据流形的局部区域, 因而对抗样本所存在的数据流形的低概率区域未被模型正确划分是对抗样本存在的主要原
                 因; Goodfellow  等人  [5] 认为  DNN  的脆弱性是由于模型在高维空间中存在的局部线性特征所导致; Gilmer 等人               [6,7]
                 认为  DNN  模型易受对抗样本攻击的主要原因在于目标数据流形的复杂高维几何结构. 综上, 本文认为对抗样本
                 的成因, 关键在于目标数据流形与            DNN  特征空间的维度差异和训练数据本身所提供的特征信息不足而导致
                 DNN  的特征空间中暗藏大量对抗样本. 因此本文基于流形学习, 聚焦                  DNN  的特征空间, 提出了可攻击空间对抗成
                 因假设: DNN   通过利用训练数据所提供的信息对数据特征进行提取和分类, 以在广袤的                        DNN  特征空间中定义对
                 应的目标数据流形. 然而因为维度差异及空间不对等和缺乏特征信息等原因, 目标数据流形仅仅占据                                 DNN  特征
                 空间中很少一部分, 而余留的未被训练数据所定义的广袤特征空间则是可能暗藏对抗样本的可攻击空间. 我们定
                 义目标数据流形所占据的部分特征空间为               DNN  在具体事务中的特征敏感空间. 将可攻击空间中未被目标数据所
                 影响的特征敏感空间和特征敏感空间之外的特征空间定义为背景可攻击空间. 将定义模糊的, 穿插在整体目标数
                 据集流形之中的特征敏感空间定义为邻近可攻击空间.
                    从可攻击空间对抗成因的角度分析, 对抗训练作为目前最有效的对抗防御方法, 其通过向训练数据中增添对
                 抗样本进行重训练对未定义的可攻击空间进行定义. 然而, Moosavi-Dezfooli 等人                [8] 指出, 无论添加多少对抗样本,
                 都存在新的对抗攻击样本可以再次欺骗网络. 这是因为对抗训练本身并没有向                           DNN  中添加新的数据特征信息,
                 且其对抗防御的有效性依赖于现有的对抗样本所提供的信息, 所以在对抗防御泛化性方面有很大的缺陷. 我们根
                 据可攻击空间假设, 提出一种新的对抗防御思路: 将暗藏对抗样本的可攻击空间标记而作为靶标, DNN                               即可通过
                 判定输入数据是否命中该靶标可攻击空间以区分输入数据是否为对抗样本.
                    综上, 为了提高深度神经网络的鲁棒性和对抗防御的泛化性, 本文基于可攻击空间对抗成因假设, 提出陷阱式
                 集成对抗防御网络       (trap ensemble neural network against adversarial examples, Trap-Net). Trap-Net 通过向训练数据
                 中添加目标数据类别之外的陷阱数据为网络模型提供更多的数据特征信息, 并使用这些新的数据特征为目标训练
                 集数据未定义的可攻击空间赋予确切的身份类别, 从而消除未被模型认知而暗藏对抗样本的                                DNN  特征空间. 同
   279   280   281   282   283   284   285   286   287   288   289