Page 292 - 《软件学报》2024年第4期
P. 292
1870 软件学报 2024 年第 35 卷第 4 期
的后验陷阱式集成网络进行后验式对抗样本验证. 其中, 每一个陷阱式集成网络由不包含目标标签类别的不同百
分比数据作为陷阱数据类别训练组成. 通过对比陷阱式集成网络的输出是否与模型的输出类别一致以判断输入数
据是否为对抗样本. 当该基准预测结果与目标模型的输入一致时, 输入样本为干净样本. 当该基准预测结果与目标
模型的输出不一致时, 输入样本为对抗样本.
2.3 陷阱式平滑损失函数
基于 Pang 等人 [27] 对集成网络中子网络多样性的探究和 Müller 等人 [14] 对标签平滑在神经网络领域有效性的
验证实验, 本文提出陷阱式平滑损失函数. 陷阱式平滑损失函通过将目标训练数据硬标签中的部分概率平分给陷
阱数据集中的各个陷阱数据类别, 建立两个数据集流形的平滑诱导关系, 以诱使对抗样本更易偏向生成于被标记
的靶标可攻击空间.
我们对陷阱式平滑损失有如下定义.
定义 4 (陷阱式平滑). 定义 K 为目标数据集的类别数, α 为陷阱诱导因子, T 为陷阱数据集的类别数. 陷阱式
平滑将目标类别的概率以均匀分布的方式分散给陷阱类别, 陷阱式平滑损失函数的公式如下:
K+T
∑
LS
L CE (x,y ) = −(1−α)log(ρ t )−(α/K) log(ρ i ) (9)
i=K+1
基于 Müller 等人 [14] 使用标签平滑在 ImageNet 细粒度类别上进行的对比实验, 修改后的陷阱式平滑损失函数
将目标数据集作为一个整体与其他细粒度陷阱类数据进行标签平滑, 可使陷阱式平滑损失函数在鼓励目标数据分
类为正确类别的同时, 促使目标数据中各类数据和陷阱数据中各类数据的距离相同. 理论上, 最终各类陷阱数据将
呈圆球状包围目标数据集流形. 陷阱式平滑损失函数对目标数据流形和陷阱数据流形之间关系的优化, 极大地提
高了陷阱类数据对暗藏对抗样本的可攻击空间, 尤其是背景可攻击空间和垃圾背景可攻击空间的陷阱类别标记,
从而进一步扩大了靶标可攻击空间的大小, 进而极大地提高了 Trap-Net 的对抗防御效力.
本文使用 T-SNE 降维可视化技术 [28] 对陷阱式网络使用陷阱式标签平滑作为陷阱诱导因子进行模型数据分布
的二维和三维可视化展示.
如图 6 所示, 带有边框的类别{0,…,9}为目标数据集, 无边框的类别{10,…,19}为陷阱数据集. 图 6(a) 为以 CE
为损失函数训练的陷阱式网络. 当损失函数为 CE 时, DNN 最后一层全连接层中目标数据与陷阱数据的数据分布
之间没有明显的交集, 陷阱数据对目标数据流形的影响有限. 图 6(b)–图 6(d) 为以陷阱式标签平滑为损失函数训练
的网络. 陷阱类数据逐渐穿入目标数据的数据流形之中. T-SNE 类别之间的距离反应类别之间服从 t 分布的相似
度. 添加陷阱数据集并充分训练后, 由目标数据集所直接定义的 DNN 特征空间变大, 原目标数据的不同类别与陷
阱数据集整体的距离相同. 这反应出添加陷阱式标签平滑作为诱导因子之后, 陷阱数据穿插进入目标数据集流形
中, 将目标数据流形中的邻近可攻击空间以陷阱类别定义. 陷阱类别数据在陷阱式平滑损失函数的影响下对外部
背景可攻击空间标记的实验及分析, 将在第 3 节实验部分的 RQ2 进行讨论.
17 17 17 17
10
11
19
19
0 0 0 0 2 2 2 2 2 14 14 18 1115 11 11 11 11 10 8 8 8 8 8 8 19 19 19 6 6 6 6 6 6 6 6
6 6 6
19 19
18
6
12
5 12 12 12 16 16 16 16 8 8 8 8 8 8 8 5 5 0 0 0 0 00 0
00 0 0
12 12 12 16 16 16 16 16
6 6 6 6 16 14 5 9 9 4 4 9 4 44 4 4 5 5 55
6 6 6 6 14 14 14 14 14 9 9 9 9 9 9 5 5 5 5 5 5 5
5 5 5 14 14 19 19 19 19 14 14 14 14 4 4 4 4 4 4 4 5 3 3 2 2 2 2 2 2 2 2
5 5 19 17 4 3 3 3
19 19 19 19 19 19 19 17 17
0 8 8 5 5 5 5 5 17 17 17 3 3 3
8 8 8
8 8 8 3 3 3 3 15 15 15 15 13 13 1313 0 1 1 1 1 1 1 1 1 10 1010 11 18
13 13 13 13 13
13 1313 13
888 8 3 3 3 10 10 13 13 13 1 16 16 16 16 16 16 14 14 10 10 10 11
11
10
11 1111
16 16 14 14
10 10
13
10 10
9 9 9
11 11
11 11
17
−5 9 9 9 8 8 11 1 1 1 1 1 15 13 1111 16 16 16 16 14 17 17 17 11
11
12
16 16
8 7 7 77 7 7 7 7 7 17 17 17 17 18 14 15 −5 12 16 16 16 16 15 15 12 12 12 12 17 17 14 17 15 15 15 15 15
15 15
15
15 15 15 15
1515 15
12 12
4
4 4 4 15 15 15 12 12 12 18 18 18 18 17 12 13 13 13 13
12
4 15 18 17 17 17
17
−10 −10 7 77 7 7
7
17 17
17
7 7
−15 −10 −5 0 5 10 15 20 −15 −10 −5 0 5 10 15
(a) 目标数据与陷阱数据明确区分 (b) 陷阱数据穿入目标数据流形
图 6 DNN 数据分布 T-SNE 视图