Page 303 - 《软件学报》2024年第4期
P. 303

孙家泽 等: 基于可攻击空间假设的陷阱式集成对抗防御网络                                                    1881


                 据特征进行修复, 进而无法通过阈值变化进行对抗样本的检测. 同时, 相较于特征压缩对抗防御方法, Trap-Net 无
                 需损失原始目标数据的分类精度, 是一种鲁棒性更强的对抗防御方法.
                    ● RQ6: Trap-Net 与其他对抗防御方法的兼容性如何?
                    为了进一步优化       Trap-Net 在对抗防御效力上的      V  型缺陷, 我们对   Trap-Net 与主流的对抗防御方法即对抗训
                 练进行了兼容性测试. Trap-Net 的防御的核心是对           DNN  特征空间中未定义的可攻击空间予以陷阱类别标记, 从而
                 通过针对对抗样本的探测有效识别对抗样本. 而作为主流的对抗防御方法, 对抗训练的核心思路是通过学习对抗
                 样本的分布, 从而迭代式地优化          DNN  于特征空间中的数据分布, 进而提高模型的鲁棒性. 针对                Trap-Net 在有目标
                 攻击场景中, 防御效力呈现        V  型结构. 我们希望通过对抗训练, 对邻近可攻击区域, 即目标数据流形周围的未定义
                 可攻击区域进行优化. 我们收集成功攻破              Trap-Net 对抗防御, 且最终分类类别为有效目标类别的对抗样本进行
                 PGD  对抗训练, 以期在不影响      Trap-Net 防御机制的前提下, 通过对抗训练进一步优化敏感特征空间中的目标数据
                 流形. 从而弥补    Trap-Net 在有目标攻击场景下面对某些扰动区间的对抗扰动攻击时, 对抗防御效力较差的情况.
                    表  9  展示了  Trap-Net 在以标签  2  为目标攻击类别的有目标攻击场景下, Trap-Net 与         PGD  对抗训练的对抗防
                 御兼容性测试. 其中第       4  列为单一  Trap-Net 防御的分类准确率, 第     5  列为  Trap-Net 经过  PGD  对抗训练后的分类
                 准确率. 分析表    9 可知, 对抗训练后的    Trap-Net 探测前及探测后的准确率基本一致, 这表示无论依次对单个                 Trap-Net
                 子网络进行对抗训练或是直接对整个              Trap-Net 进行对抗训练, 其优化结果都会破坏原目标数据集和陷阱数据集
                 基于陷阱式平滑建立的陷阱机制. 虽然与对抗训练兼容后的                    Trap-Net 提升了低扰动有目标攻击场景下的对抗防
                 御鲁棒性, 但对抗训练会破坏陷阱式集成网络的诱导和探测机制, 使得其在高扰动条件下的探测效力降低. 我们未
                 来将尝试更多的对抗训练策略进行邻近可攻击空间定义的优化, 这也是我们未来的研究方向之一.

                                       表 9    Trap-Net 与对抗训练兼容前后的防御效力对比 (%)

                                                                对抗训练前                   对抗训练后
                    攻击方法          参数         有目标攻击
                                                            探测前         探测后         探测前         探测后
                      PGD           ε =0.1      是            10.32      99.12        94.69       94.69
                      PGD           ε =0.3      是            47.56      87.21        92.21       92.34
                      PGD           ε =0.5      是            32.51      80.32        90.48       91.48
                      PGD           ε =0.8      是            0.00        100         76.34       84.46

                    小结: (1) 由于现有的主流对抗样本防御方法大多为启发式方法. 所以如何有效地对各种对抗防御方法进行兼
                 容具有重要的研究意义. (2) 对抗训练可解决           Trap-Net 于低扰动有目标场景下防御鲁棒性不足的缺点, 但无法在不
                 影响  Trap-Net 探测防御机制的同时优化邻近可攻击空间中的目标数据流形.

                  4   相关工作

                  4.1   对抗样本成因探究
                    自  2014  年  Szegedy  等人  [4] 通过  L-BFGS  对抗攻击方法生成对抗样本, 揭露了对抗样本这一       DNN  鲁棒性安全
                 盲点以来, 对抗样本的成因至今仍是一个开放性问题. 对抗成因对对抗攻击和对抗防御方法的提出和优化有指导
                 作用. 现有的对抗成因      [4−7] 大多基于流形学习, 聚焦于目标数据流形的低概率区域欠拟合, 高维线性, 高维几何结构
                 等. Szegedy  等人  [4] 认为训练数据不足导致   DNN  只能学习到目标数据流形的局部区域, 对抗样本所存在的数据流
                 形的低概率区域未被模型正确划分是对抗样本存在的主要原因; Goodfellow                    等人  [5] 认为  DNN  的脆弱性是由于模
                 型在高维存在局部线性特征所导致; Gilmer 等人           [6,7] 认为  DNN  模型易受对抗样本攻击的主要原因在于目标数据流
                 形的复杂高维几何结构. 本文基于流形学习思想, 聚焦于                 DNN  特征空间, 通过解析目标数据流形与           DNN  特征空
                 间之间的关系, 提出了可攻击空间对抗成因假设.
                  4.2   对抗集成网络防御
                    对抗集成网络防御旨在通过集成学习的方式, 集成多个子网络的特征信息以生成鲁棒性更强的集成网络. 其
   298   299   300   301   302   303   304   305   306   307   308