Page 475 - 《软件学报》2025年第10期

P. 475

4872 软件学报 2025 年第 36 卷第 10 期

最大值.
接着我们使用混合对抗样本, 即既包含强鲁棒性也包含弱鲁棒性的对抗样本, 以及良性样本开展实验, 选取大
于下阈值的概率分布距离构成上阈值候选列表, 计算每个阈值下的假正例率 (false positive rate, FPR) 与真正例率
(true positive rate, TPR), 绘制 ROC 曲线, 结合 ROC 曲线找到 FPR 尽可能小、TPR 尽可能大的阈值设定为上阈值.
最后对选定的阈值区间进行细微调整, 使检测器达到最好的检测效果.
5 实验分析

5.1 实验设置
为了证明本文所提方法的检测性能, 选择在 2 个数据集和 3 个分类模型上进行测试. 数据集选择 CIFAR-10
数据集和 ImageNet 数据集. CIFAR-10 是一个小型图像分类数据集, 它包含 10 个不同类别的彩色图像, 其中每个
类别有 6 000 张图像, 每张图像的分辨率为 32×32 像素. ImageNet 数据集是大规模图像分类数据集, 它包含超过
1 000 个类别的图像, 总图像数超过 100 万张, 每张图像分辨率较高通常在几百像素以上. 分类模型则是选择使用
训练好的 DenseNet 模型、VGG19 模型以及 ConvNeXt 模型. 将 DenseNet 模型应用于 CIFAR-10 数据集的分类任
务上, VGG19 模型和 ConvNeXt 模型应用于 ImageNet 数据集上. DenseNet 模型在 CIFAR-10 数据集上的准确度
高达 94.84%, VGG19 和 ConvNeXt 模型在 ImageNet 数据集上准确度高达 71.34% 和 82.30%.
关于对抗样本生成, 我们选择了对模型威胁较大的白盒攻击来生成对抗样本. 采用第 2.1 节里介绍的 5 种常
见的白盒攻击方法, 随机选取数据集中部分样本进行攻击, 并筛选出攻击成功的对抗样本进行后续实验. 在 FGSM、
BIM、PGD 攻击中, 将攻击参数 ε 控制在 0.1、0.2 和 0.3 之间. 在 DeepFool 攻击中, 将攻击步长设置在 0.02、9
和 16. 在 CW 攻击中, 将置信度参数 k 分别控制在 0、0.5、1.0 和 1.5 之间.
图像变换的参数设置如下所述. 添加噪声的类型为高斯噪声, 平滑滤波使用最大值滤波, 位深度减少设置为减
少到 7 bit, 去高频频域系数设定为 0.9, 平移设定为平移 1 个像素, 翻转设定为水平翻转, 旋转角度为−15°, 水平错
切系数为 0.3, 缩放设定为放大 1.1 倍.
在本实验的威胁模型中, 我们允许攻击者知道目标模型的信息, 包括模型的结构、参数等. 攻击者可以根据目
标模型的信息开展白盒攻击, 但不清楚对抗样本检测器的具体细节.
5.2 评价指标
本文采用 FPR、TPR、ROC (receiver operating characteristic) 曲线和 AUC (area under the curve) [33] 等指标来评
估本文检测方法的有效性以及与其他检测方法做对比.
(1) FPR 是指在所有实际为负例的样本中被错误识别为正例的比例, 在本文中指所有良性样本中被错误判定
为对抗样本的比例, 该值越小表示检测方法正确识别良性样本能力越强. FPR 计算公式如下:

FP
FPR = (11)
FP+TN
其中, FP 表示假正例 (false positive) 即将良性样本错误识别为对抗样本的数量.
(2) TPR 是指在所有实际为正例的样本中被正确识别为正例的比例, 在文中指所有对抗样本中被正确识别为
对抗样本的比例, 该值越大表示检测方法识别对抗样本的能力越强. TPR 计算公式如下:

TP
TPR = (12)
TP+ FN
(3) ROC 曲线和 AUC. ROC 曲线常用于评估二分类模型的性能. 它以 FPR 为横轴 TPR 为纵轴, 通过对不同的
分类阈值计算对应的 FPR 与 TPR, 将这些点连成线即为 ROC 曲线. ROC 曲线能够直观地反映模型在不同阈值下
的性能表现. AUC 是 ROC 曲线下面积, 常用于衡量模型整体的分类性能. AUC 的通常取值在 0.5–1 之间, 越接近
1 则表示模型性能越好. 当 AUC 值为 0.5 时相当于模型分类能力接近于随机猜测, 当 AUC 值为 1 时表示模型分
类完全正确.

470 471 472 473 474 475 476 477 478 479 480