Page 423 - 《软件学报》2025年第10期
P. 423
4820 软件学报 2025 年第 36 卷第 10 期
d(·) 在硬标签情况下为交叉熵 (CrossEntropy) 损失, 在软标签情况下为均方误差损失 (mean square
其中距离函数
error) 损失.
3 实验分析
3.1 实验数据
在 VFDA 的模型窃取攻击实验中, 本文评估了 VFDA、基于真实数据的模型窃取攻击和无数据依赖模型窃
取攻击的效果. 针对图像分类模型, 本文研究了在 CIFAR-10 [26] 、CIFAR-100 [26] 、GTSRB [27] 和 Tiny-ImageNet [28] 标
准数据集上的模型窃取和攻击效果.
3.2 评价指标及实验细节
[2]
我们利用 3 种经典的攻击方法来评估 VFDA 和对比方法的模型窃取效果, 其中包括 FGSM 、BIM [24] 和
PGD [25] 来产生对抗样本. 在所有数据集上, 我们设定扰动预算 ϵ = 8/255, 对于 BIM 和 PGD 方法, 我们设置步长 α =
2/255. 迭代次数为 10 次. 在攻击成功率的评估过程中, 我们仅采用能够成功攻击本地模型的对抗样本去评估在黑
盒模型上的攻击成功率. 攻击成功率 (attack success rate, ASR) 的计算方法为:
1 ∑ N [ ( ) ] ( ) ( ) ( )
ASR = F t X i adv , Y i where F s X adv , Y i and F s X ori = F t X ori = Y i (16)
i
i
i
N i=1
其中, N 为评估过程样本总数, 在本文中, 评估样本数量为随机挑选的 1 000 张图片, 并攻击成功率取重复 10 次实
验的平均值, X adv 为对抗样本, X ori 为原始样本, Y i 为原始样本对应的真实标签, F t 为黑盒模型, F s 为本地代替模
i i
型. 在本文中, 所有攻击成功率实验结果均以百分比 (%) 形式呈现.
在 VFDA 和所有对比方法的查询次数限制上, 对于任何一个数据集我们限制 20 万次/张的查询, 批次大小为
α 为 1, β 为 0.000 1, γ 为 0.5. 对于生成模型,
256. 在超参数上, 为了控制每个损失之间数量级的一致性, 我们设置
我们使用 Adam 优化器, 学习率为 0.001, 动量衰减率为 [0.5, 0.999]. 对于代替模型, 我们使用 SGD 优化器, 学习率
为 0.01, 动量衰减率为 0.9.
在代替模型的选择上, VFDA 与所有对比方法均使用 ResNet18 [ 29 ] 作为代替模型, 目标黑盒模型为
ResNet50 [29] .
3.3 模型窃取攻击实验结果
3.3.1 模型窃取攻击成功率评估
为了评估 VFDA 模型窃取攻击的攻击能力, 我们首先在较低分辨率的数据集 CIFAR-10 和 CIFAR-100 中与
MAZE [21] 、Fe-DaST [22] 、Del [20] 和 EBFA [23] 方法进行对比实验. Soft label 是指目标模型返回结果为预测概率向量的
情况下, 使用均方误差损失训练本地模型. Hard label 是指目标模型返回结果为硬标签的情况下, 使用交叉熵损失
训练本地模型. 我们同时评估了使用 FGSM、BIM、PGD 这 3 种常见的攻击方法来进行攻击成功率的评估. 实验
结果如后文表 1 所示. 可以看出, 在 CIFAR-10 和 CIFAR-100 数据集上, VFDA 在多数情况下取得了最高的攻击成
功率, 尤其是在仅能查询硬标签情况下, VFDA 方法在攻击成功率上更具优势.
为了进一步评估 VFDA 的模型窃取攻击效果, 我们在分辨率更大的数据集 GTSRB 和 Tiny-ImageNet 上评估
了 VFDA 与对比方法的模型窃取攻击成功率, 结果如后文表 2 所示. 可以看出, 在较大分辨率的数据集上, 我们提
出的 VFDA 方法具有更加优异的攻击成功率表现. 从实验结果来看, VFDA 利用 FGSM、PGD、BIM 攻击方法生
成对抗样本的攻击成功率均在 80% 以上.
3.3.2 模型窃取迁移攻击评估
此外, 我们在 Microsoft Azure 上进行了攻击在线模型的实验, 在不知道模型内部参数和结构的情况下, 仅通过
模型输出的硬标签来窃取目标模型. 实验结果如表 3 所示. 其中, Valina 是在查询在线模型 100 个 Epoch 的常规模
型窃取攻击的结果. Transfer 考虑了更加实际的情况, 是指在本地基于 Fashion 数据集的预窃取模型及生成样本,

