Page 469 - 《软件学报》2025年第10期

P. 469

4866 软件学报 2025 年第 36 卷第 10 期

1 相关工作

近年来, 已有大量针对对抗样本检测领域的相关研究, 其检测方法大致上可分为以下 4 类: 基于统计方法的对
抗样本检测、基于辅助模型的对抗样本检测、基于神经网络特性的对抗样本检测和基于输入变换的对抗样本
检测.
基于统计方法的对抗样本检测通过分析良性样本与对抗样本的统计特征, 找出二者之间的统计差异, 从而识
别对抗样本. 如 Hendrycks 等人 [13] 发现, 分类模型在推断对抗样本与良性样本时, 其输出的置信度分布存在较大的
差异. 良性样本的置信度分布远离均匀分布, 而对抗样本的置信度分布靠近均匀分布, 因此可以通过计算其与均匀
分布的 KL (Kullback-Leibler) 散度来检测对抗样本. Feinman 等人 [14] 则认为良性样本与对抗样本数据分布存在差
异, 利用训练样本的 logits 分布与对应的预测标签来确定样本的数据流形, 通过高斯核密度估计来判断待测样本
与目标类别流形的距离, 核密度估计值越小, 表明与目标类别流形的距离越远.
基于辅助模型的对抗样本检测主要通过学习良性样本与对抗样本之间的特征差异来进行检测. 按训练数据是
否需要手动标注, 检测方法可分为有监督与无监督两类. 有监督的辅助模型需要同时学习良性样本与对抗样本的
特征. 如 Gong 等人 [9] 利用良性样本与对抗样本来训练一个二元分类器, 使其能有效区分对抗样本. Lust 等人 [15] 以
梯度范数作为指标进行对抗样本检测. 该方法检测开销小、速度快, 但检测过程依赖梯度信息, 对于非梯度攻击的
对抗样本检测效果差. 基于无监督的辅助模型仅利用良性样本的特征构建检测模型. 如 Liu 等人 [16] 利用良性样本
的二元特征集训练孤立森林, 从而实现无监督的对抗样本检测. Wang 等人 [17] 提出 ADDITION 模型, 通过注入与
图像相关噪声, 将对抗扰动转化为近似高斯噪声, 再使用降噪处理消除对抗扰动, 最后通过分类不一致性来识别对
抗样本.
基于神经网络特性的对抗样本检测通过观察良性样本与对抗样本在神经网络中的表现差异进行检测, 主要利

用神经元的激活值或者输出值. Zheng 等人 [18] 提出的 I-defender 方法, 通过建模良性样本在隐层神经元的输出分布
来检测对抗样本. 该方法检测能力强, 但计算开销大、效率低. Eniser 等人 [19] 提出了 RAID 检测方法, 利用良性样
本与对抗样本的神经元激活值差异训练二分类检测器, 并通过池化的 RAID 增强检测器的鲁棒性. Ma 等人 [20] 通
过观察深度神经网络中激活值分布变化, 利用起源不变量和激活值不变量模型来检测对抗样本.
基于输入变换的对抗样本检测方法利用对抗样本较良性样本对输入变换相对敏感的特点, 通过对输入数据进
行各种变换操作, 比较目标模型对变换前后样本的输出结果, 来识别对抗样本. Tian 等人 [21] 发现对抗样本对平移
和旋转很敏感, 他们通过对输入样本进行不同程度的平移和旋转操作获取其分类模型输出的 logits 分布, 训练检
测器检测对抗样本, 实验表明他们的方法对 CW 攻击有着很好的检测效果. Liang 等人 [11] 提出了自适应降噪方法,
使用标量量化和平滑滤波技术, 通过比较降噪前后的模型预测不一致性来检测是否为对抗样本. 该方法无需参考
任何攻击先验知识但是低置信度良性样本易被误判. Ryu 等人 [22] 则提出基于图像熵的对抗检测方法, 通过对输入
样本进行位深度减少处理, 计算样本图像熵变化, 若变化过大则为对抗样本.
当前对抗样本检测领域已经取得了一定进展. 然而, 随着对抗样本攻击技术的不断更新, 对抗样本的鲁棒性显
著增强, 对抗样本的逃逸能力得到了明显的提升, 现有的检测技术难以准确识别强鲁棒性的对抗样本. 本文针对强
鲁棒性对抗样本检测困难问题, 提出了一种基于图像变换的双阈值检测方案, 克服了现有的单阈值检测方案在强
鲁棒性对抗样本检测中的局限性, 显著提升了对抗样本检测效果.

2 背景知识

2.1 对抗攻击
对抗攻击是指通过对输入样本进行细微的、有针对性的扰动, 达到欺骗深度学习模型的行为. 这类扰动通常
不会改变人眼观察的图像本质, 但可以使深度学习模型产生错误的输出结果. 下面介绍几种常见的对抗攻击方法.
(1) 快速梯度符号法 (the fast gradient sign method, FGSM). FGSM 攻击最开始由 Goodfellow 等人 [23] 提出, 是一

464 465 466 467 468 469 470 471 472 473 474