Page 475 - 《软件学报》2025年第10期
P. 475

4872                                                      软件学报  2025  年第  36  卷第  10  期


                 最大值.
                    接着我们使用混合对抗样本, 即既包含强鲁棒性也包含弱鲁棒性的对抗样本, 以及良性样本开展实验, 选取大
                 于下阈值的概率分布距离构成上阈值候选列表, 计算每个阈值下的假正例率                         (false positive rate, FPR) 与真正例率
                 (true positive rate, TPR), 绘制  ROC  曲线, 结合  ROC  曲线找到  FPR  尽可能小、TPR  尽可能大的阈值设定为上阈值.
                 最后对选定的阈值区间进行细微调整, 使检测器达到最好的检测效果.
                  5   实验分析

                  5.1   实验设置
                    为了证明本文所提方法的检测性能, 选择在               2  个数据集和   3  个分类模型上进行测试. 数据集选择          CIFAR-10
                 数据集和   ImageNet 数据集. CIFAR-10  是一个小型图像分类数据集, 它包含           10  个不同类别的彩色图像, 其中每个
                 类别有   6 000  张图像, 每张图像的分辨率为       32×32  像素. ImageNet 数据集是大规模图像分类数据集, 它包含超过
                 1 000  个类别的图像, 总图像数超过      100  万张, 每张图像分辨率较高通常在几百像素以上. 分类模型则是选择使用
                 训练好的   DenseNet 模型、VGG19   模型以及   ConvNeXt 模型. 将  DenseNet 模型应用于  CIFAR-10  数据集的分类任
                 务上, VGG19  模型和   ConvNeXt 模型应用于    ImageNet 数据集上. DenseNet 模型在  CIFAR-10  数据集上的准确度
                 高达  94.84%, VGG19  和  ConvNeXt 模型在  ImageNet 数据集上准确度高达   71.34%  和  82.30%.
                    关于对抗样本生成, 我们选择了对模型威胁较大的白盒攻击来生成对抗样本. 采用第                            2.1  节里介绍的  5  种常
                 见的白盒攻击方法, 随机选取数据集中部分样本进行攻击, 并筛选出攻击成功的对抗样本进行后续实验. 在                                FGSM、
                 BIM、PGD  攻击中, 将攻击参数      ε 控制在   0.1、0.2  和  0.3  之间. 在 DeepFool 攻击中, 将攻击步长设置在   0.02、9
                 和  16. 在  CW  攻击中, 将置信度参数   k  分别控制在  0、0.5、1.0  和  1.5  之间.
                    图像变换的参数设置如下所述. 添加噪声的类型为高斯噪声, 平滑滤波使用最大值滤波, 位深度减少设置为减
                 少到  7 bit, 去高频频域系数设定为      0.9, 平移设定为平移    1  个像素, 翻转设定为水平翻转, 旋转角度为−15°, 水平错
                 切系数为   0.3, 缩放设定为放大     1.1  倍.
                    在本实验的威胁模型中, 我们允许攻击者知道目标模型的信息, 包括模型的结构、参数等. 攻击者可以根据目
                 标模型的信息开展白盒攻击, 但不清楚对抗样本检测器的具体细节.
                  5.2   评价指标
                    本文采用    FPR、TPR、ROC (receiver operating characteristic) 曲线和  AUC (area under the curve) [33] 等指标来评
                 估本文检测方法的有效性以及与其他检测方法做对比.
                    (1) FPR  是指在所有实际为负例的样本中被错误识别为正例的比例, 在本文中指所有良性样本中被错误判定
                 为对抗样本的比例, 该值越小表示检测方法正确识别良性样本能力越强. FPR                      计算公式如下:

                                                              FP
                                                      FPR =                                          (11)
                                                            FP+TN
                 其中,  FP 表示假正例    (false positive) 即将良性样本错误识别为对抗样本的数量.
                    (2) TPR  是指在所有实际为正例的样本中被正确识别为正例的比例, 在文中指所有对抗样本中被正确识别为
                 对抗样本的比例, 该值越大表示检测方法识别对抗样本的能力越强. TPR                     计算公式如下:

                                                              TP
                                                      TPR =                                          (12)
                                                            TP+ FN
                    (3) ROC  曲线和  AUC. ROC  曲线常用于评估二分类模型的性能. 它以           FPR  为横轴  TPR  为纵轴, 通过对不同的
                 分类阈值计算对应的        FPR  与  TPR, 将这些点连成线即为     ROC  曲线. ROC  曲线能够直观地反映模型在不同阈值下
                 的性能表现. AUC    是  ROC  曲线下面积, 常用于衡量模型整体的分类性能. AUC             的通常取值在      0.5–1  之间, 越接近
                 1  则表示模型性能越好. 当      AUC  值为  0.5  时相当于模型分类能力接近于随机猜测, 当           AUC  值为  1  时表示模型分
                 类完全正确.
   470   471   472   473   474   475   476   477   478   479   480