Page 418 - 《软件学报》2025年第10期

P. 418

张锦弘等: 基于视觉特征解耦的无数据依赖模型窃取攻击方法 4815

并且在有限次数查询的情况下, 生成的对抗样本的攻击成功率有了明显的提高.
本文第 1 节介绍模型窃取攻击的相关方法和研究现状. 第 2 节对本文所提出的基于视觉特征解耦的无数据模
型窃取攻击方法进行阐述. 第 3 节通过对比实验验证了所提模型的有效性. 最后总结全文.

1 相关工作

本文所提方法主要基于视觉特征解耦的无数据依赖模型窃取攻击方法, 下面就相关工作予以介绍.
1.1 对抗攻击
对抗攻击又称为对抗样本攻击, 是指向干净样本中添加精心设计的微小扰动, 从而导致被攻击目标模型错误
输出的过程. 与传统的攻击不同, 对抗攻击不干扰模型的计算过程, 仅针对模型的输入进行微小扰动, 从而使模型
通过正常的推理计算后输出错误的结果. 对抗样本的攻击过程可以简化为以下运算: 给定被攻击的目标模型 F(·),
被攻击的原始样本 x ori ∈ X data 及其对应真实标签 F(x ori ) = y true ∈ Y, 攻击者的目标是寻找到一个较小的对抗扰动 δ 添
δ 通常被
加到原始图像上, 从而使目标模型分类错误, 即 F(x ori +δ) , y true . 同时, 为了限制扰动的不可察觉性, 扰动
攻击者使用 l p 范数来约束扰动的大小, 即, 通常, 使用 l 0 范数作为约束的攻击被称为稀疏攻击, 旨在仅进行干净样
本的局部来进行对抗扰动; 使用 l 2 范数作为约束的攻击被称为基于优化方法的攻击; 使用 l ∞ 范数作为约束的攻击
被称为基于梯度的攻击. 整个攻击过程可以表示为:

F (x ori +δ) , y true s.t. ∥ δ∥ p < ϵ (1)
对抗攻击的分类有许多种, 从攻击者能够获取到的被攻击模型信息程度来说, 攻击可以分为白盒攻击和黑盒
攻击. 其中, 黑盒攻击中的迁移攻击因其在现实世界的适用性在近期受到广泛关注. 基于迁移的黑盒攻击是指利用
对抗样本的可迁移性 [10] 来完成针对其他模型的黑盒攻击. 对抗样本的可迁移性指的是, 基于一个模型生成的对抗
样本, 在一定程度上同样能够使其他模型输出错误的结果. Dong 等人 [11] 利用了深度学习中卷积神经网络的平移不
变性, 对原始图像通过平移的数据增强方法来生成一组图像, 使用这一组图像共同基于一个白盒模型计算梯度并
生成对抗扰动. 将基于这一组图像生成的对抗扰动添加到原始图像上, 并输入到黑盒模型中完成黑盒攻击. 基于这
种方法生成的对抗样本减少了对固定的白盒模型过拟合的程度, 因此具有更强的可迁移性. Xie 等人 [12] 提出的
DIM 采用了类似的思想, 探索了多种数据增强方法对于提高对抗样本可迁移性的作用. 这种基于迁移的攻击方法
能够在不需要查询目标模型的情况下完成黑盒攻击, 但是, 上述的传统迁移攻击方法完成攻击的前提是需要一个
训练良好的白盒模型, 这就需要使用到目标模型的训练数据知识, 而通常攻击者是无法获取模型的训练数据的.
1.2 模型窃取攻击
为了解决在现实世界完成迁移攻击所需要本地白盒模型的问题, 近些年提出了模型窃取攻击, 即通过一系列
样本查询目标模型得到返回结果, 并依据这些样本和返回的查询结果在本地训练一个白盒的代替模型, 来完成迁
移攻击. 模型窃取攻击是一种针对机器学习模型的攻击方法, 其目的是通过向目标模型发起一系列查询来构建一
个与目标模型具有相同行为模式的代替模型, 从而窥探目标模型的内部结构和参数.
在模型窃取攻击中, 攻击者会利用一组输入和相应的输出来发起查询, 以探测目标模型的行为模式. 攻击者通
常会设计特定的查询策略, 以最小化查询次数并尽可能地获取有用的信息. 一旦攻击者构建出与目标模型具有相
同行为模式的代替模型, 就可以利用对抗样本的可迁移性, 在代替模型上制作对抗样本来攻击目标模型. 模型窃取
攻击是一种非常具有挑战性的攻击方法, 因为它要求攻击者在没有访问目标模型内部结构的情况下, 通过有限的
查询来了解目标模型的行为. 模型窃取攻击与知识蒸馏具有一定的相似性, 但是模型窃取攻击无法像知识蒸馏一
样以白盒的方式访问目标模型. 根据模型窃取是否对真实数据的依赖, 可以分为数据依赖的模型窃取攻击和无数
据依赖的模型窃取攻击.
1.2.1 数据依赖的模型窃取攻击
Tramèr 等人 [13] 在 2016 年提出了一种针对机器学习中决策树、逻辑回归、支持向量机和简单深度学习模型

413 414 415 416 417 418 419 420 421 422 423