Page 293 - 《软件学报》2024年第4期

P. 293

孙家泽等: 基于可攻击空间假设的陷阱式集成对抗防御网络 1871

20 20
0 0 0 0 0 0 0 0
10 2 2 2 2 2 6 6 6 6 6 6 6 6 10 2 2 2 2 2 6 6 6 6 6 6 6 6
12
13
13
12
14 11 11 11 11 11 10 14 11 11 11 11 11 10
11 15 11 15
14 17 11 17 11 11 18 18 14 17 11 17 11 11 18 18
0 1 1 1 1 11 1 1 17 17 17 11 13 11 16 11 19 11 19 11 18 18 18 18 18 18 5 5 5 5 5 5 0 1 1 1 1 11 1 1 17 17 17 11 13 11 16 11 19 11 19 11 18 18 18 18 18 18 5 5 5 5 5 5
11
11
11 11 11 11 11 11 3 3 3 3 3 3 11 11 11 11 11 11 3 3 3 3 3 3
16 16 16 16 16 16
8 8 8 8 8 8 8 8 8 8 8 8
−10 9 9 9 9 9 7 7 7 7 7 7 −10 9 9 9 9 9 7 7 7 7 7 7
4 4
4 4 4 4 4 4 4 4 4 4
−20 −20
−30 −20 −10 0 10 20 −30 −20 −10 0 10 20
(c) 目标数据类别与陷阱数据集等距离包围 (d) 陷阱数据成功插入目标数据流形中
图 6 DNN 数据分布 T-SNE 视图 (续)

3 实验及评估
3.1 实验设置
3.1.1 实验数据
本文使用标准数据集 MNIST, K-MNIST, F-MNIST, CIFAR-10 和 CIFAR-100 进行 Trap-Net 的验证及实验分
析, 以证明陷阱式集成对抗防御方法的有效性. 其中, 以 MNIST 为主体目标数据, 使用 K-MNIST, F-MNIST,
CIFAR-10 和 CIFAR-100 为陷阱数据进行 Trap-Net 的构建以及对抗防御效力验证. MNIST (D1), K-MNIST (D2),
F-MNIST (D3) 属于不同图片类型, 大小为 28×28 单通道灰度图片. CIFAR-10 (D4) 与 CIFAR-100 (D5) 是大小为
32×32 的三通道彩色图片. 表 1 给出了数据集的具体参数及介绍.

表 1 数据集介绍

ID 数据集训练集测试集种类规格数据集描述
D1 MNIST 60 000 10 000 10 28×28 灰度图片—手写数字图片
D2 K-MNIST 60 000 10 000 10 28×28 灰度图片—平假名图片
D3 F-MNIST 60 000 10 000 10 28×28 灰度图片—衣物图片
D4 CIFAR-10 50 000 10 000 10 32×32 RGB图片—动物, 交通工具图片等
D5 CIFAR-100 50 000 10 000 20/100 32×32 RGB图片—20大超类, 各含5子类

3.1.2 研究问题
为了验证 Trap-Net 的对抗防御有效性以及模型参数对防御效力的影响, 我们从以下问题进行研究, 并进行相
应的实验与分析.
● RQ1: 陷阱式网络能否作为一种简单, 有效的集成网络中子网络的扩充方式以提高集成多样性?
对抗集成网络防御方法通过集成多个子网络模型以构成鲁棒性更强的集成网络. 由于对抗样本存在可迁移
性, 集成网络中子网络的特征多样性对集成网络整体的鲁棒性显得尤为重要 [23] . 陷阱式网络旨在通过向 DNN 添
加新的陷阱数据类别, 为 DNN 特征空间增添新的数据特征信息. 理论上, 陷阱式网络有利于为集成网络提升整体
的特征多样性. 因此在本问题研究中, 我们从对抗防御效力的角度进行评估, 与现有的对抗集成网络方法进行对
比, 探究陷阱式网络能否可以在不影响 DNN 应对高斯噪声等传统鲁棒性的同时, 作为一种简单有效的集成网络
子网络扩充方式.
● RQ2: Trap-Net 能否对对抗样本的迁移性进行有效的防御?
对抗样本已被证明有极强的可迁移性 [29] . 攻击者可通过代理模型生成对抗样本或对抗扰动, 并利用对抗样本
的可迁移性有效攻击目标黑盒 DNN. 在本问题的研究中, 我们使用基于梯度的对抗攻击方法以及可迁移性更强的

288 289 290 291 292 293 294 295 296 297 298