Page 468 - 《软件学报》2025年第10期

P. 468

刘会等: 基于图像变换的双阈值对抗样本检测 4865

with the feature distribution laws of benign examples. Based on this key observation, this study proposes a dual-threshold adversarial
example detection based on image transformation, which sets a lower threshold combining existing single-threshold methods to form a dual-
threshold detection interval. An example whose feature distribution is not within the dual-threshold detection interval will be judged as an
adversarial example. Additionally, this study conducts extensive experiments on VGG19, DenseNet, and ConvNeXt models for image
classification. The results show that the proposed approach is compatible with the detection ability of existing single-threshold detection
schemes, and yields outstanding detection performance against robust adversarial examples.
Key words: image transformation; adversarial example; feature distribution; dual-threshold detection; image classification

近年来, 深度学习发展迅速, 凭借其优异的性能被广泛应用于计算机视觉 [1] 、语音识别 [2] 、自然语言处理 [3] 、
推荐系统 [4] 等领域. 通过对大规模数据的复杂特征进行抽取学习, 深度学习模型能够针对这些领域的目标任务提
供更准确高效的个性化解决方案, 推动这些领域的发展和创新. 尽管如此, 深度学习应用中的安全性问题依旧不容
忽视. 早在 Szegedy 等人 [5] 的研究中, 就发现了对抗性样本带来的安全问题. 对抗样本以微小扰动误导深度学习模
型做出错误决策, 对深度学习模型在自动驾驶 [6] 、生物识别 [7] 、医疗成像 [8] 等关键领域的应用安全构成了严峻的
威胁.
为了保障深度学习技术在实际应用中的安全性, 研究者提出了许多对抗样本防御措施, 如对抗训练 [9] 、梯
度遮掩 [10] 、数据预处理 [11] 等. 对抗训练通过纳入对抗样本至模型训练过程中, 有效增强了模型鲁棒性, 但是需
要大量对抗样本数据, 容易产生过拟合. 梯度遮掩则通过隐藏模型梯度信息增加生成对抗样本的难度, 但难以
防御不依赖于梯度信息的攻击方法. 数据预处理通过对输入样本进行降噪处理以消除对抗噪声, 然而有时却因
此损失了重要特征信息, 造成模型性能受损. 鉴于以上防御措施的种种限制, 研究人员将防御对抗样本的注意
力转向了对抗样本检测 [12] 方向. 对抗样本检测旨在通过对输入数据进行检测, 识别出对抗样本, 进而有效地抵
御对抗攻击. 该防御方式通常不需要更改模型或者样本的信息, 即可保证深度学习技术在应用过程中的数据完
整性.
图像变换是对抗样本检测的重要方法之一. 通过分析样本在变换前后的特征分布差异, 并设定阈值判断标准,
可以有效区分良性样本与对抗样本. 这些方案利用了对抗样本较良性样本对输入变换相对敏感的特点. 然而, 为了
提升对抗样本的逃逸能力, 基于对模型漏洞和脆弱性的深刻理解, 精准地设计出在变换后仍能高置信度欺骗目标
模型的对抗样本, 显著提升了对抗样本的鲁棒性. 这些鲁棒性较高的对抗样本有潜力规避上述检测方法, 有效欺骗
目标深度学习模型. 然而我们发现, 精心设计的高鲁棒性对抗样本对于图像变换表现的过于稳定, 其变换前后的特
征分布距离远小于良性样本的特征分布距离. 基于这一关键的观察, 我们设置了下阈值来检测鲁棒性高的对抗样
本, 结合传统的单阈值检测方法, 有效提升对于高鲁棒性对抗样本的检测能力.
本文提出了一种基于图像变换的双阈值对抗样本检测方法. 该方法首先测算样本在图像变换前后的特征分布
距离. 在传统的单阈值基础上, 引入下阈值构建出阈值区间, 评判样本在变换前后特征分布距离是否落于该区间
内, 进而确定其为良性或对抗样本. 实验结果表明, 本文方法对鲁棒性较强和鲁棒性较弱的对抗样本, 均表现出良
好的检测效果. 本文的主要贡献如下.
(1) 观察到当前先进的对抗样本攻击为逃逸检测, 生成的对抗样本鲁棒性较高, 对图像变换表现得过于稳定,
往往违背了良性样本特征分布的统计规律, 从而为高鲁棒性对抗样本的有效检测提供了新的思路.
(2) 提出了基于图像变换的双阈值对抗样本检测框架, 通过在传统的单阈值对抗样本检测方法的基础上, 设置
下阈值来检测鲁棒性较强的对抗样本, 显著提升了当前单阈值检测器对高鲁棒性对抗样本的检测能力.
(3) 实验评估了本文所提的双阈值检测方法面向 VGG19、DenseNet 和 ConvNeXt 图像分类模型, 基于 9 种图
像变换对 5 种基准对抗样本攻击的检测性能, 并与其他先进的检测方案进行对比. 实验证明, 本文所提方法能够有
效弥补当前单阈值检测的局限性.
本文第 1 节介绍关于对抗样本检测领域的相关工作. 第 2 节介绍对抗攻击以及分类模型的背景知识. 第 3 节
重点介绍本文的研究动机. 第 4 节介绍双阈值对抗样本检测器的设计方法. 第 5 节介绍实验设置以及对实验结果
进行分析. 第 6 节对全文做出总结.

463 464 465 466 467 468 469 470 471 472 473