Page 423 - 《软件学报》2025年第10期
P. 423

4820                                                      软件学报  2025  年第  36  卷第  10  期


                            d(·) 在硬标签情况下为交叉熵        (CrossEntropy) 损失, 在软标签情况下为均方误差损失         (mean square
                 其中距离函数
                 error) 损失.

                  3   实验分析

                  3.1   实验数据
                    在  VFDA  的模型窃取攻击实验中, 本文评估了           VFDA、基于真实数据的模型窃取攻击和无数据依赖模型窃
                 取攻击的效果. 针对图像分类模型, 本文研究了在              CIFAR-10 [26] 、CIFAR-100 [26] 、GTSRB [27] 和  Tiny-ImageNet [28] 标
                 准数据集上的模型窃取和攻击效果.
                  3.2   评价指标及实验细节
                                                                                             [2]
                    我们利用    3  种经典的攻击方法来评估         VFDA  和对比方法的模型窃取效果, 其中包括             FGSM 、BIM   [24] 和
                 PGD [25] 来产生对抗样本. 在所有数据集上, 我们设定扰动预算            ϵ = 8/255, 对于  BIM  和  PGD  方法, 我们设置步长  α =
                 2/255. 迭代次数为  10  次. 在攻击成功率的评估过程中, 我们仅采用能够成功攻击本地模型的对抗样本去评估在黑
                 盒模型上的攻击成功率. 攻击成功率           (attack success rate, ASR) 的计算方法为:

                                      1  ∑ N [  (  )  ]      (   )        (  )    (  )
                                ASR =       F t X i adv  , Y i where F s X adv  , Y i and F s X ori  = F t X ori  = Y i  (16)
                                                                                   i
                                                               i
                                                                            i
                                      N  i=1
                 其中, N  为评估过程样本总数, 在本文中, 评估样本数量为随机挑选的                  1 000  张图片, 并攻击成功率取重复      10  次实
                 验的平均值,    X adv  为对抗样本,  X ori  为原始样本,  Y i  为原始样本对应的真实标签,    F t  为黑盒模型,  F s  为本地代替模
                            i             i
                 型. 在本文中, 所有攻击成功率实验结果均以百分比               (%) 形式呈现.
                    在  VFDA  和所有对比方法的查询次数限制上, 对于任何一个数据集我们限制                     20  万次/张的查询, 批次大小为
                                                                      α 为  1,  β 为  0.000 1,  γ  为  0.5. 对于生成模型,
                 256. 在超参数上, 为了控制每个损失之间数量级的一致性, 我们设置
                 我们使用   Adam  优化器, 学习率为    0.001, 动量衰减率为    [0.5, 0.999]. 对于代替模型, 我们使用  SGD  优化器, 学习率
                 为  0.01, 动量衰减率为  0.9.
                    在代替模型的选择上, VFDA           与所有对比方法均使用          ResNet18  [ 29 ] 作为代替模型, 目标黑盒模型为
                 ResNet50 [29] .
                  3.3   模型窃取攻击实验结果
                  3.3.1    模型窃取攻击成功率评估
                    为了评估    VFDA  模型窃取攻击的攻击能力, 我们首先在较低分辨率的数据集                    CIFAR-10  和  CIFAR-100  中与
                 MAZE [21] 、Fe-DaST [22] 、Del [20] 和  EBFA [23] 方法进行对比实验. Soft label 是指目标模型返回结果为预测概率向量的
                 情况下, 使用均方误差损失训练本地模型. Hard label 是指目标模型返回结果为硬标签的情况下, 使用交叉熵损失
                 训练本地模型. 我们同时评估了使用           FGSM、BIM、PGD     这  3  种常见的攻击方法来进行攻击成功率的评估. 实验
                 结果如后文表     1  所示. 可以看出, 在  CIFAR-10  和  CIFAR-100  数据集上, VFDA  在多数情况下取得了最高的攻击成
                 功率, 尤其是在仅能查询硬标签情况下, VFDA            方法在攻击成功率上更具优势.
                    为了进一步评估       VFDA  的模型窃取攻击效果, 我们在分辨率更大的数据集               GTSRB  和  Tiny-ImageNet 上评估
                 了  VFDA  与对比方法的模型窃取攻击成功率, 结果如后文表               2  所示. 可以看出, 在较大分辨率的数据集上, 我们提
                 出的  VFDA  方法具有更加优异的攻击成功率表现. 从实验结果来看, VFDA                 利用  FGSM、PGD、BIM    攻击方法生
                 成对抗样本的攻击成功率均在           80%  以上.
                  3.3.2    模型窃取迁移攻击评估
                    此外, 我们在    Microsoft Azure 上进行了攻击在线模型的实验, 在不知道模型内部参数和结构的情况下, 仅通过
                 模型输出的硬标签来窃取目标模型. 实验结果如表                3  所示. 其中, Valina 是在查询在线模型     100  个  Epoch  的常规模
                 型窃取攻击的结果. Transfer 考虑了更加实际的情况, 是指在本地基于                 Fashion  数据集的预窃取模型及生成样本,
   418   419   420   421   422   423   424   425   426   427   428