Page 188 - 《软件学报》2021年第11期
P. 188
3514 Journal of Software 软件学报 Vol.32, No.11, November 2021
效果,在保持攻击效率的同时,增强了对抗样本的不可感知性(如图 1 中阶段 2 所示).
Fig.1 Pipeline of the proposed black-box adversarial attack method
图 1 本文提出的黑盒对抗攻击方法流程图
本文的主要贡献分为 3 个方面.
(1) 提出了基于协方差矩阵自适应进化策略的攻击方法.该方法考虑了梯度方向分布的特性,可以较大地
提升黑盒攻击的效率,有较强的实用性.
(2) 提出了基于注意力机制的对抗样本压缩优化方法,结合类间激活热力图对扰动进行优化,可以有效地
减少冗余的数据,增强对抗样本的隐蔽性.
(3) 分析了注意力机制与对抗样本的内在关联,验证了本文方法的可靠性.
本文第 1 节介绍相关工作.第 2 节详细描述本文提出的基于进化策略和注意力机制的黑盒对抗攻击方法.
第 3 节为实验设置与结果分析.最后一节为本文总结.
1 相关工作
1.1 对抗样本与白盒攻击方法
Szegedy 等人 [11] 首次提出了对抗样本的概念:对于分类任务,给定已训练好的深度神经网络 f,输入合理的图
像数据 x,可以计算得到正确的结果 y,定义为映射函数 y=f(x).而对抗攻击的目的是找到一个微小的扰动向量δ,
求解以下优化问题:
y′=f(x+δ) s.t. ||δ|| p ≤ε,y′≠y (1)
其中, ˆ x =+
x δ 定义为对抗样本,误导深度神经网络输出错误的结果 y′.为了满足扰动的不可感知性,扰动向量δ
需要满足 L p 范数约束.对于非目标攻击,攻击者需要最小化正确结果 y 的概率,直到输出结果 y′≠y;对于目标攻击,
则需要最大化目标结果 y′ = 的输出概率.
y
白盒场景中,攻击者可以获知目标模型的训练集数据、神经网络结构、模型参数等信息,通常利用神经网
络模型的反向传播特性来生成对抗样本,可以分类为:(1) 单步攻击,包括 Goodfellow 等人 [19] 提出的 FGSM 方法
和 Szegedy 等人 [11] 提出的 L-BFGS 方法;(2) 迭代攻击,包括 Moosavi-Dezfooli 等人提出的 DeepFool 方法 [31] 和
UAP 方法 [32] 、Kurakin 等人 [20] 提出的 BIM 算法以及 Carlini 等人 [22] 提出的 C&W 方法等.
1.2 黑盒攻击方法
由于深度神经网络内部信息的不可知性约束,因此黑盒对抗攻击面临更大的挑战,通常可以分为 3 类.
(1) 基于网络迁移性的攻击:该类方法假设不同的深度神经网络在高维空间中具有相似的分类边界,因此
首先通过在已知的白盒模型中生成对抗样本,进一步迁移攻击未知的黑盒模型.Papernot 等人 [23] 利用