Page 303 - 《软件学报》2024年第4期
P. 303
孙家泽 等: 基于可攻击空间假设的陷阱式集成对抗防御网络 1881
据特征进行修复, 进而无法通过阈值变化进行对抗样本的检测. 同时, 相较于特征压缩对抗防御方法, Trap-Net 无
需损失原始目标数据的分类精度, 是一种鲁棒性更强的对抗防御方法.
● RQ6: Trap-Net 与其他对抗防御方法的兼容性如何?
为了进一步优化 Trap-Net 在对抗防御效力上的 V 型缺陷, 我们对 Trap-Net 与主流的对抗防御方法即对抗训
练进行了兼容性测试. Trap-Net 的防御的核心是对 DNN 特征空间中未定义的可攻击空间予以陷阱类别标记, 从而
通过针对对抗样本的探测有效识别对抗样本. 而作为主流的对抗防御方法, 对抗训练的核心思路是通过学习对抗
样本的分布, 从而迭代式地优化 DNN 于特征空间中的数据分布, 进而提高模型的鲁棒性. 针对 Trap-Net 在有目标
攻击场景中, 防御效力呈现 V 型结构. 我们希望通过对抗训练, 对邻近可攻击区域, 即目标数据流形周围的未定义
可攻击区域进行优化. 我们收集成功攻破 Trap-Net 对抗防御, 且最终分类类别为有效目标类别的对抗样本进行
PGD 对抗训练, 以期在不影响 Trap-Net 防御机制的前提下, 通过对抗训练进一步优化敏感特征空间中的目标数据
流形. 从而弥补 Trap-Net 在有目标攻击场景下面对某些扰动区间的对抗扰动攻击时, 对抗防御效力较差的情况.
表 9 展示了 Trap-Net 在以标签 2 为目标攻击类别的有目标攻击场景下, Trap-Net 与 PGD 对抗训练的对抗防
御兼容性测试. 其中第 4 列为单一 Trap-Net 防御的分类准确率, 第 5 列为 Trap-Net 经过 PGD 对抗训练后的分类
准确率. 分析表 9 可知, 对抗训练后的 Trap-Net 探测前及探测后的准确率基本一致, 这表示无论依次对单个 Trap-Net
子网络进行对抗训练或是直接对整个 Trap-Net 进行对抗训练, 其优化结果都会破坏原目标数据集和陷阱数据集
基于陷阱式平滑建立的陷阱机制. 虽然与对抗训练兼容后的 Trap-Net 提升了低扰动有目标攻击场景下的对抗防
御鲁棒性, 但对抗训练会破坏陷阱式集成网络的诱导和探测机制, 使得其在高扰动条件下的探测效力降低. 我们未
来将尝试更多的对抗训练策略进行邻近可攻击空间定义的优化, 这也是我们未来的研究方向之一.
表 9 Trap-Net 与对抗训练兼容前后的防御效力对比 (%)
对抗训练前 对抗训练后
攻击方法 参数 有目标攻击
探测前 探测后 探测前 探测后
PGD ε =0.1 是 10.32 99.12 94.69 94.69
PGD ε =0.3 是 47.56 87.21 92.21 92.34
PGD ε =0.5 是 32.51 80.32 90.48 91.48
PGD ε =0.8 是 0.00 100 76.34 84.46
小结: (1) 由于现有的主流对抗样本防御方法大多为启发式方法. 所以如何有效地对各种对抗防御方法进行兼
容具有重要的研究意义. (2) 对抗训练可解决 Trap-Net 于低扰动有目标场景下防御鲁棒性不足的缺点, 但无法在不
影响 Trap-Net 探测防御机制的同时优化邻近可攻击空间中的目标数据流形.
4 相关工作
4.1 对抗样本成因探究
自 2014 年 Szegedy 等人 [4] 通过 L-BFGS 对抗攻击方法生成对抗样本, 揭露了对抗样本这一 DNN 鲁棒性安全
盲点以来, 对抗样本的成因至今仍是一个开放性问题. 对抗成因对对抗攻击和对抗防御方法的提出和优化有指导
作用. 现有的对抗成因 [4−7] 大多基于流形学习, 聚焦于目标数据流形的低概率区域欠拟合, 高维线性, 高维几何结构
等. Szegedy 等人 [4] 认为训练数据不足导致 DNN 只能学习到目标数据流形的局部区域, 对抗样本所存在的数据流
形的低概率区域未被模型正确划分是对抗样本存在的主要原因; Goodfellow 等人 [5] 认为 DNN 的脆弱性是由于模
型在高维存在局部线性特征所导致; Gilmer 等人 [6,7] 认为 DNN 模型易受对抗样本攻击的主要原因在于目标数据流
形的复杂高维几何结构. 本文基于流形学习思想, 聚焦于 DNN 特征空间, 通过解析目标数据流形与 DNN 特征空
间之间的关系, 提出了可攻击空间对抗成因假设.
4.2 对抗集成网络防御
对抗集成网络防御旨在通过集成学习的方式, 集成多个子网络的特征信息以生成鲁棒性更强的集成网络. 其