Page 419 - 《软件学报》2025年第10期
P. 419
4816 软件学报 2025 年第 36 卷第 10 期
的模型窃取方法, 其按照模型输出的置信度与模型的输入结合建立求解方程, 尝试窃取到目标模型的参数. 然而,
这种方法仅能适用在目标模型给攻击者提供输出的置信度的情况, 极大限制了攻击者的模型窃取实施场景.
Papernot 等人 [14] 首先在代替模型上对原始输入使用基于雅可比矩阵 (Jacobi matrix) 进行数据增强并生成查询
样本, 然后利用增强过的查询样本对目标模型窃取. 然而, 由于代替模型没有经过良好的训练, 在代替模型上使用
雅可比矩阵进行数据增强而制作的查询样本在窃取过程中有效性较低.
Orekondy 等人 [15] 提出了 Knockoff 方法, 试图在一个巨大的数据集中找到有效的查询实例, 例如, ImageNet
(ILSVRC 数据集的 1.2M 图像), 并在窃取过程中采取适应性策略. Knockoff 使用确定性损失来鼓励查询样本的多
样性, 并使用多样性奖励来防止对单一标签的图像利用的退化情况. 但是, Knockoff 需要大量的查询数据, 并且无
法适用于只有硬标签的场景.
Yang 等人 [16] 提出了 DSBF 方法, 该方法利用预先训练的生成对抗网络 (GAN) 来生成查询样本. 该方法采用
类平衡和鲁棒筛选策略来提高查询样本的类间多样性问题.
He 等人 [17] 提出了一种新颖的利用扩散模型进行模型窃取攻击的方法, 该方法生成的查询样本更加真实, 视觉
语义信息更强. 然而该方法依赖基于广泛收集数据训练的扩散模型, 无法在零知识的情况下对黑盒模型进行攻击.
1.2.2 无数据依赖的模型窃取攻击
Zhou 等人 [18] 在 2020 年提出了 DAST 方法, 这是第 1 个无数据依赖的模型窃取攻击方法. DAST 使用了多个
生成器分别生成不同标签的查询样本, 来生成具有不同标签的合成查询数据集. 然而, DAST 的生成模型结构复杂、
参数量较大且随着分类类别总数线性增长, 导致模型窃取效率极低, 查询次数大.
Truong 等人 [19] 提出了 DFME 方法, 该方法中代替模型的目标是缩小代替模型输出和目标模型输出之间的差
异, 而生成器的目标是扩大两个模型输出的差异, 以对抗博弈的思想更新生成器的参数和代替模型的参数. 然而,
在这种对抗博弈中, 仅凭模型输出的差异来计算损失并不能如同典型生成对抗网络中的鉴别器一样给予生成器足
够的指导, 导致生成的查询样本质量较差, 模型窃取的有效性不足.
Wang 等人 [20] 从生成器的中间层出发, 通过嵌入不同的条件信息, 并通过扩大不同样本之间的余弦距离来控
制生成样本的类间多样性, 然而在黑盒的情况下目标模型无法为生成器提供足够的指导, 且在样本层面扩大样本
距离并不能保证类别的多样性, 致模型窃取的效率较低.
Kariyappa 等人 [21] 提出了 MAZE 模型窃取方法, 该方法利用零阶梯度估计来指导生成器的训练, 然而该方法
不能应用在目标模型仅能提供硬标签输出的场景.
Yu 等人 [22] 提出了 Fe-DaST 方法, 该方法在 DAST 方法的基础上, 压缩了生成器的大小, 并引入伪标签来提供
信息熵, 从而提高查询样本的类间多样性.
Zhang 等人 [23] 在 2022 年提出的 EBFA 方法使用了伪标签, 通过缩小生成样本输入到目标模型得到的结果和
伪标签之间的信息熵来使生成器生成具有类间多样性的生成样本. EBFA 提出的伪标签信息熵损失旨在提升了查
询样本的多样性, 然而单一生成器的架构不能足够拟合伪标签计算的多样性损失, 无法充分实现标签带来的多样
性提升.
在模型窃取攻击中, 攻击者需要构造请求目标模型的数据样本以获取对应的标签, 并用于代替模型的训练. 因
此, 这些构造的样本的质量成为影响代替模型训练效果的重要因素. 在完成模型窃取后, 由于提取到的本地模型与
目标模型高度相似, 攻击者能够基于提取到的本地模型来生成对抗样本, 从而利用对抗样本的可迁移性来完成对
黑盒目标模型的对抗攻击. 由于在相似的模型中对抗样本的可迁移性更高, 可以看出, 由于模型窃取攻击的研究重
点为如何使本地模型与目标模型决策边界更加相似, 从而提高对抗样本的迁移攻击成功率. 然而, 目前的无数据工
作不能保证查询样本的类间多样性, 而且查询的有效性不足, 需要对目标模型进行大量的查询, 这大大增加了攻击
者暴露的风险. 因此, 本文提出了一种新颖的无数据依赖模型窃取策略, 相比与上述无数据依赖的模型窃取攻击方
法, 在查询样本的生成模型架构和查询样本的构造方法上提出了新的策略. 该策略基于神经网络的分类决策更依
赖于样本的纹理信息启发 [8,9] , 从视觉特征解耦的角度生成查询样本. 并且提出了一种基于代替模型输出的 Logit

