Page 285 - 《软件学报》2024年第4期
P. 285
孙家泽 等: 基于可攻击空间假设的陷阱式集成对抗防御网络 1863
时本文基于标签平滑 [9] 技术, 提出陷阱式平滑损失函数. 利用其作为诱导因子以加强目标数据和陷阱数据之间的
联系, 诱使攻击算法所生成的对抗样本偏移至靶标可攻击空间. Trap-Net 通过集成学习的方式在保证不影响原目
标数据分类精度的同时扩大靶标可攻击空间的大小, 最终通过判别输入样本是否命中靶标可攻击空间以区分输入
样本是否为对抗样本.
本文的贡献可总结如下.
• 提出可攻击空间对抗成因假设. 因维度差异及空间不对等和训练数据不足导致 DNN 缺乏数据特征信息等
原因, 导致 DNN 的特征空间中存在大量暗藏对抗样本的对应空间. 基于可攻击空间和目标数据流形之间的关系,
可攻击空间分为邻近可攻击空间和背景可攻击空间两大类.
• 基于可攻击空间对抗成因假设, 提出陷阱式集成对抗防御网络 Trap-Net. Trap-Net 能在保持目标数据分类精
度的同时高效地探测输入样本是否为对抗样本. 与传统仅探测防御方法相比, Trap-Net 无需设计, 构建新的外部模
块, 不依靠生成的对抗样本所提供的信息. Trap-Net 在白盒和黑盒攻击场景下都有极高的对抗样本探测率. 对各种
程度的对抗扰动, 尤其是高扰动的对抗样本有极强的防御效力.
• 提出一种简单的集成学习子网络的扩充方式. 通过向同一模型结构的 DNN 中添加不同类别, 不同数目, 有
别于目标数据类别的其他数据, 可以构建具有集成多样性的 DNN 子网络用于集成学习中的子网络扩充. 提出陷
阱式平滑损失函数. 陷阱式平滑损失函数基于标签平滑技术, 于 Trap-Net 中作为诱导因子以增加靶标可攻击空间
对攻击算法的吸引. 通过进一步诱导攻击算法所生成的对抗样本偏移至靶标可攻击空间以提高模型对对抗样本的
探测效力.
• 在 5 个经典的深度学习数据集上进行了深入的研究, 验证了 Trap-Net 方法在不同数据集上的对抗防御有效
性. 同时, 对 Trap-Net 的重要参数进行了实验与分析, 为模型的构建和相关参数的设置提出指导性意见. 为了方便
拓展我们的研究工作, 我们对代码和实验结果进行了开源, 对应地址为: https://github.com/Ccsk-Xian/Trap-Net.
本文第 1 节介绍研究背景. 第 2 节详细介绍本文提出的陷阱式集成对抗防御方法. 第 3 节为实验展示及结果
分析, 对 Trap-Net 的防御有效性和参数的选取, 陷阱数据的类别, 数目和陷阱数据与目标数据之间的关系进行实
验与分析. 第 4 节介绍相关工作. 第 5 节对本文总结并对未来研究方向进行了展望.
1 研究背景
本节简要介绍 DNN 和对抗样本、流形学习、标签平滑和对抗攻击算法的相关背景知识. 这些背景知识是随
后工作及实验的基础.
1.1 深度神经网络和对抗样本
深度神经网络 (DNN) 是一种从数据中提取特征并进行特征学习的多网络层数学经验模型. LeCun 等人 [10] 构
建的卷积神经网络 (CNN) 是应用于图像分类领域的一种性能优越的 DNN. 本文使用的 ResNet 残差网络 [11] 是应
用于图像分类和识别领域的一种易优化的 CNN. 本文定义 ResNet 为 f(x i ,θ) : X −→ Y . 其中 X ∈ R 为 d 维的输入样
d
e
e
θ
本特征集, Y ∈ R 为 f 预测输出的 类输出分类向量. f 通过训练更新每层网络中的参数 . 当 f 训练完成后, 样本
x i ∈ X 输入 f 将输出其对应标签类别 y i ∈ Y , 即 f(x i ,y i ,θ) : g F (g F−1 (...(g 1 (x i )))) = y i . 其中, g F 为 f 中的第 F 层网络,
包含隐藏层或卷积层以及激活函数和参数 θ 等.
传统计算机视觉的平滑假设认为 DNN 的输入 x 在被随机噪声所干扰时, 可以展现出极强的鲁棒性 [12] . 然而
不同于随机噪声, Szegedy 等人 [4] 证实 DNN 极易受到基于对抗攻击算法生成的对抗样本 x 的攻击. x 是攻击者通
∗
∗
∗ x 区分, 却能以极高的置信
过向 x 添加精心制作的对抗扰动所生成的恶意攻击样本. x 无法从人类视觉的角度与
度使 DNN 分类错误, 是 DNN 安全领域的一大盲点.
1.2 流形学习
流形学习 [13] 用于形容无冗余的数据表示. 流形学习认为数据实际上是一种低维流形映射到高维空间的数据
表示. 在高维空间中, 维度和数据的表示是不相关的, 数据在更低的维度中即可唯一表示. 而这种考虑了数据内部