Page 187 - 《软件学报》2021年第11期
P. 187

黄立峰  等:一种基于进化策略和注意力机制的黑盒对抗攻击算法                                                  3513


                 generated images can still fool the target model. Extensive experiments on seven DNNs with different structures suggest the superiority of
                 the proposed method compared with the state-of-the-art black-box adversarial attack approaches (i.e., AutoZOOM, QL-attack, FD-attack,
                 and D-based attack).
                 Key words:    adversarial example; black-box attack; evolution strategy; attention mechanism; optimization of compression

                    随着深度学习技术的不断发展,深度神经网络(deep neural network,简称 DNN)在包括图像分类、物体识别、
                 场景分割等多种计算机视觉任务中都获取了出色的表现                    [1−4] .随着结构更复杂、层级数量更多的神经网络模型
                               [5]
                                                              [8]
                                                      [7]
                                         [6]
                 的出现(如 AlexNet 、VggNet 、InceptionNet 、ResNet 等),深度神经网络不仅在预测的准确度上获得了进
                 一步的突破,也在不断拓广其实际的应用范围               [9,10] .
                    然而,深度神经网络在达到高性能的同时,也展现出面临对抗样本攻击的脆弱性,即恶意地对输入数据添加
                 微小但难以察觉的扰动,将导致深度神经网络输出错误的结果.这种被恶意篡改的数据定义为对抗样本                                    [11] .在这
                 种情况下,包括医学      [12] 、安防 [13] 、智能分析 [14] 等不同领域中,基于深度神经网络的应用系统都将面对这种潜在
                 的威胁:Sharif 等人 [15] 通过将对抗样本图案打印至眼镜边框上来欺骗人脸识别系统;Athalye 等人                    [16] 利用对抗攻
                 击算法制造出在不同的光照和角度下欺骗分类器的 3D 打印物体;以涂鸦的方法对路牌上的图案进行简单的修
                 改 [17] ,就会导致无人驾驶系统无法正确识别路牌的类别;Lee 等人               [18] 利用对抗样本图案隐藏人体,这将对行人识
                 别与跟踪系统产生威胁.因此,研究对抗样本的生成原理和算法实现,有助于分析基于深度学习的系统存在的安
                 全漏洞,并建立相应的防范机制.
                    根据对抗样本的攻击场景设定,可以将对抗样本攻击方法分类为:(1)  白盒攻击,即攻击者可以获知被攻击
                 目标模型的所有信息,包括训练集数据、神经网络结构、模型参数以及训练方式等                              [19−22] ;(2)  黑盒攻击,即神经
                 网络相关的信息对攻击者来说是透明不可知的,攻击者只能通过提交输入数据并观察输出结果来进行交互,以
                 此为基础生成对抗样本        [23−29] .
                    目前,大多数的攻击方法都是基于白盒场景下进行研究的.由于可以对目标模型的信息进行分析,因此这类
                 方法大多是基于神经网络的反向传播与梯度下降算法来反向最大化模型的损失函数,生成可以误导神经网络
                 的对抗样本.该类方法包括 FGSM         [19] 、BIM [20] 、JSMA [21] 与 C&W [22] 等.
                    尽管白盒攻击理论上存在可行性,但在现实场景中,应用系统的网络结构和相关数据都是严格保密的,因此
                 黑盒攻击比白盒攻击更接近实际的应用场景.攻击者只能观察到网络模型的预测结果,而且需要对交互查询的
                 次数进行约束,面临更大的挑战.目前,黑盒攻击主要包含两类方法,其中,
                    •   一类黑盒攻击方法是基于迁移性的对抗攻击                 [23−25] ,通过在已知的替代网络模型上生成对抗样本,再迁
                        移至目标模型,观察能否攻击成功.这种方法仅需要进行一次查询,但由于不同的神经网络模型结构
                        千差万别,因此迁移攻击的成功率通常较低.
                    •   另一类是基于梯度拟合的黑盒攻击方法               [26−30] ,即通过对目标模型多次交互查询来观察输出结果的变
                        化,以此为基础近似估计网络模型的损失函数梯度方向.但是这类方法需要与模型往复查询多次,耗
                        费大量的计算资源,效率较低;且拟合的梯度与真实的梯度存在差异,导致生成的对抗样本扰动幅度
                        较大,难以应用在实际场景中.
                    对此,本文提出了一种基于进化策略和注意力机制的黑盒对抗攻击方法(如图 1 所示),主要由两部分构成.
                    (1)  基于协方差矩阵自适应进化策略的攻击方法.与传统方法从高斯分布或伯努利分布中采样向量的思
                        路不同,本文方法充分考虑到攻击过程中损失函数梯度方向的分布关系,基于协方差矩阵迭代学习每
                        次拟合的梯度方向信息,自适应更新较优的搜索路径,使采样的扰动向量主要在损失函数下降的窄谷
                        方向上生成,以高几率采样到有效的扰动,减少与攻击模型交互查询的次数,提高黑盒攻击的计算效
                        率与成功率(如图 1 中阶段 1 所示).
                    (2)  基于注意力机制的对抗样本压缩优化方法.由于黑盒攻击生成的对抗样本冗余信息较多,容易被人眼
                        视觉系统所察觉,因此本文结合类间激活热力图方法对生成的扰动进行分组,并依次压缩优化,降低
                        扰动幅度的大小.该方法主要考虑了神经网络的注意力机制与冗余扰动数据的内在联系,提升优化的
   182   183   184   185   186   187   188   189   190   191   192