Page 417 - 《软件学报》2025年第10期

P. 417

4814 软件学报 2025 年第 36 卷第 10 期

目前模型窃取攻击方法可以分为数据依赖的模型窃取攻击和无数据依赖模型窃取攻击. 数据依赖的模型窃取
攻击通过利用真实数据对目标模型进行查询, 在黑盒场景下以“模型蒸馏” [1–7] 的方式在本地训练一个代替模型, 从
而完成模型的窃取. 在获得窃取到的模型之后, 便能通过攻击代替模型来构造对抗样本, 并利用对抗样本的可迁移
性对目标模型发起迁移攻击. 这种攻击方法在成功攻击目标模型的同时, 能够窃取到一个具有相似功能的盗版模
型, 对深度学习模型具有安全性和隐私性的双重威胁. 由于数据依赖的模型窃取攻击需要真实数据集作为查询样
本, 这在现实场景中往往又难以达成, 因此数据依赖的方法适用性较差. 与需要真实数据的模型窃取攻击相对应,
近两年提出的无数据依赖模型窃取攻击更符合物理世界中的实际情况, 具有更大的应用潜力. 无数据依赖模型窃
取攻击是一种非常具有挑战性的攻击方法, 因为它要求攻击者在未知目标模型内部结构的情况下, 使用伪造的查
询样本在有限查询次数下探索目标模型的行为, 并窃取到一个相似的模型. 因此, 这些构造查询样本的质量成为影
响代替模型训练效果的重要因素. 由于代替模型的训练数据为生成器生成的查询样本, 数据标签为查询目标黑盒
模型得到的硬标签, 因此如何生成高质量的查询样本, 确保查询样本被黑盒模型分类输出的类别更加均衡是无数
据依赖模型窃取攻击的核心问题. 即如何提高查询样本对于代替模型训练的有效性, 以及提高被目标模型预测输
出的多样性? 解决该问题需从神经网络分类决策的敏感性角度进行探索, 确定查询样本的哪些信息影响对神经网
络的决策更为重要, 从而使查询样本更加有效、多样. Geirhos 等人 [8] 和 Wang 等人 [9] 指出, 神经网络的分类决策更
多依赖样本的少量纹理, 而非平滑区域. 也就是说, 纹理信息较高程度地控制着神经网络的类间判别输出. 通过对
无数据依赖模型窃取攻击方法调研, 本文认为现有无数据依赖的模型窃取攻击方法存在一些局限性.
(1) 现有的无数据依赖模型窃取攻击方法仅依赖一个生成器去生成查询样本, 生成查询样本对于代替模型训
练的有效性不佳, 导致需要大量的查询次数, 增加攻击者暴露的风险.
(2) 目前的方法仅考虑了生成器生成查询样本的类间多样性, 却无顾及生成的查询样本对于目标黑盒模型的
类内多样性, 导致代替模型和目标模型决策边界不相似, 攻击成功率不高.
(3) 目前的方法没有考虑从神经网络分类决策的敏感性角度提高查询样本的质量, 导致生成查询样本不能很
好地探测到目标模型的决策边界, 攻击成功率不高.
针对上述方法存在的局限性, 本文提出了一种基于视觉特征解耦的无数据依赖模型窃取攻击方法 VFDA
(vision feature decoupling-based model stealing attack), 该方法针对视觉特征中的纹理信息和平滑信息进行解耦, 使
用不同的解码器针对性地生成查询样本信息, 以提高查询样本的多样性和有效性. 具体地说, VFDA 首先使用上采
样生成器对高斯噪声进行采样, 并经过一个编码器编码, 得到生成查询样本的编码信息. 之后, 将编码信息分别输
入 3 个解码器中. 3 个解码器在接收到编码信息后, 第 1 个解码器的目标是生成查询样本的纹理信息, 主要用于提
高查询样本的类间多样性; 第 2 个解码器的目标是生成查询样本的各自信息的区域位置, 通过对第 2 个解码器的
输出进行量化及取反操作得到查询样本的纹理区域掩码和平滑区域掩码; 第 3 个解码器的目标是生成查询样本的
低频信息, 通过对解码器的输出进行滤波得到查询样本的平滑信息, 用于提高查询样本的类内多样性. 得到 3 个解
码器的输出后, 我们对第 1 个解码器生成的纹理信息和纹理掩码, 以及第 3 个解码器生成的平滑信息和平滑掩码
进行哈达玛积 (Hadamard product), 再将两个结果加和得到我们最终的查询样本. 此外, 我们提出了一种针对生成
查询样本低频信息的类内多样性损失, 使 VFDA 方法生成的查询样本更加符合真实样本的分布. 最后, 我们将得
到的查询样本分别送入代替模型和目标黑盒模型, 计算样本多样性损失来训练我们的查询样本生成模型和蒸馏损
失来使代替模型学习目标模型.
本文的主要贡献如下.
(1) 提出了一种基于多解码器的无数据依赖模型窃取攻击的生成模型架构, 每个解码器分别用于生成查询样
本的纹理信息、低频信息和各自信息的区域位置. 这种架构的设计可以帮助提高查询样本生成的多样性, 提高模
型窃取的效率, 降低查询次数.
(2) 提出了一种基于代替模型 Logit 向量的类内多样性损失函数, 通过缩小该损失可以提高生成模型所生成的
查询样本的类内多样性, 从而使查询样本更加符合真实样本的数据分布, 提高模型窃取的有效性.
(3) 与目前最先进的无数据依赖模型窃取攻击相比, 实验结果表明 VFDA 在查询样本的有效性方面具有优势,

412 413 414 415 416 417 418 419 420 421 422