Page 472 - 《软件学报》2025年第10期

P. 472

刘会等: 基于图像变换的双阈值对抗样本检测 4869

和 DeepFool 对抗样本分布明显高于良性样本. 这一现象表明, 通过设置上阈值有助于检测鲁棒性较弱的对抗样
本. 图 2 则展示了强鲁棒性对抗样本与良性样本之间的 KL 分布情况. 图 2 中对抗样本与良性样本之间 KL 散度
分布差异较为明显, 其中 BIM 与 PGD 对抗样本的 KL 散度基本聚集在最底部, 良性样本分布则相对分散且位于
两种对抗样本上层. 这一现象表明, 通过设置下阈值可以帮助我们检测鲁棒性较强的对抗样本. 基于以上观察, 我
们认为通过设定上下双阈值来检测对抗样本可实现更全面的鉴别. 其中, 上阈值用以筛选鲁棒性较弱的对抗样本,
而下阈值则专门用于识别鲁棒性较强的对抗样本.

0.010
1.4 良性样本良性样本
DeepFool DeepFool
1.2 0.008
CW CW
1.0 0.006
KL 散度 0.8 KL 散度 0.004
0.6
0.4
0.002
0.2
0
0
0 20 40 60 80 100 0 20 40 60 80 100
样本下标样本下标
(a) KL 散度的全局分布情况 (b) KL [0, 0.01]的局部分布情况
图 1 弱鲁棒性对抗样本 KL 分布图

0.000 10
良性样本良性样本
0.001 50 PGD PGD
0.001 25 BIM 0.000 08 BIM
KL 散度 0.001 00 KL 散度 0.000 06
0.000 75
0.000 04
0.000 50
0.000 25 0.000 02
0
0
0 20 40 60 80 100 0 20 40 60 80 100
样本下标样本下标
(a) KL 散度的全局分布情况 (b) KL [0, 0.0001]的局部分布情况
图 2 强鲁棒性对抗样本 KL 分布图

4 检测框架

从第 3 节的研究动机中我们发现, 随着对抗样本攻击技术的不断进步, 对抗样本的鲁棒性得到了显著的提升,
强鲁棒性对抗样本在面向图像变换时表现得异常稳定, 其预测距离明显低于良性样本. 因此, 本文在现有的单阈值
对抗样本检测基础上, 提出用于检测强鲁棒性对抗样本的下阈值检测方法, 提出基于图像变换的双阈值对抗样本
检测方法. 鲁棒性较弱的对抗样本经图像变换后, 分类模型输出的概率分布会出现显著差异, 其预测距离通常大于
上阈值; 鲁棒性较强的对抗样本, 则表现为图像变换前后预测概率分布的高度一致性或仅有微小变化, 其预测距离
通常小于下阈值. 而图像分类器对变换前后良性样本的预测距离通常处于特定的区间内. 相较于单阈值检测方法
仅检测“弱鲁棒性”的对抗样本, 本文方法同时考虑“弱鲁棒性”和“强鲁棒性”两种特性. 该方法弥补了单阈值方法
无法检测强鲁棒性对抗样本的局限性, 在检测能力上取得更优表现.
本方案是在传统的单阈值检测框架下新增一个下阈值, 构成双阈值区间来检测对抗样本, 其检测框架图如图 3
′ x 输入分类模型进行预测得到对应
′
所示. 首先, 检测器对原始样本 x 进行图像变换得到变换后样本 x , 然后将 x 与
的预测概率分布数组 P 和 Q, 计算 P 和 Q 之间的距离 d, 判断其是否在阈值区间 (τ 1 ,τ 2 ) 内. 若在该区间则判定输
入样本为良性样本, 否则为对抗样本.

467 468 469 470 471 472 473 474 475 476 477