Page 192 - 《软件学报》2021年第11期
P. 192
3518 Journal of Software 软件学报 Vol.32, No.11, November 2021
过修改 q 维数据来估计目标模型 f 的偏导梯度方向,则每一轮迭代需要 O(n/q)次查询计算.而在
ES-Attack 方法中,拟合梯度的查询次数与图像维度无关,每一轮迭代需要进行 O(M)次查询来估计梯
度方向,其中,M 为算法中随机采样的个数.对于 ImageNet 数据集这类高维度图像来说,通常情况下满
足 O(n/q)>>O(M).因此 ES-Attack 以较少的交互查询次数来估计梯度方向,有效提升黑盒攻击的效率.
(2) 具有更大的概率采样到较优的扰动向量.对于图像数据,它的对抗样本更可能在特征空间中大致相同
的梯度方向上进行分布 [40] .因此,相比于基于标准正态分布条件下随机采样计算梯度的 QL-Attack 方
法 [29] ,本文提出的 ES-Attack 考虑了迭代过程中梯度更新方向连续分布的特性,通过自适应方式学习
成功搜索的历史路径信息,并以此为基础更新协方差矩阵,调整下一次搜索方向,使采样生成的偏移
向量有更大的概率向损失函数减小的方向进行移动.直观上看,该方法通过加强每次迭代中梯度更新
方向的内在联系来增加采样到较优扰动的概率.
2.2 基于注意力机制的对抗样本压缩优化方法
在黑盒场景中,损失函数的梯度方向是通过多次观察神经网络模型反馈的置信度数值变化进行拟合得到
的,因此在每一次迭代过程中,拟合的梯度方向与真实的梯度方向必然存在着一定的误差,而偏离真实梯度方向
的部分则称为冗余梯度.随着迭代次数的增加,冗余的梯度会不断积累,导致最终生成的扰动幅度较大 [40] .因此,
本文提出一种基于注意力机制的对抗样本压缩优化方法(attention mechanism based compression method,简称
AM-Com),减少生成的冗余信息,降低对抗样本的扰动幅度.Zhou 等人 [35] 提出了类间激活热力图的概念,用于量
化深度神经网络对图像内不同区域的关注程度.根据观察发现,热力图展现出以下两个特性.
(1) 不同的神经网络对于一张图像计算得出相似的热力图.尽管神经网络之间的设计结构和模型参数不
同,但都基于图片中类似的区域进行决策计算.如图 2 所示,所有的模型之间共享着相似的高关注区域
(动物的头部)和低关注区域(图像背景),其中,对抗防御模型的高关注区域分布相对较窄,且处于预训
练模型的高关注区域内.在观察的基础上,本文对不同模型关注区域的相似程度进行了量化,通过计
算两张热力图数值之差小于 0.1 的区域所占图像整体的比例,来衡量模型之间热力图的相似度.本文
随机选取了 1 000 张图像对热力图的平均相似度进行统计,并将结果展示于图 3.通过对比可以看出,
即使是关注区域差异最大的两个模型(即 VggNet-16 与 Inception-v3 ens4 ),平均也有超过 60%的区域的
关注程度是非常相近的.这种模型间共享关注区域的特性验证了 Dong 等人 [24] 的结论,也为 AM-Com
方法提供了基础.
(2) 热力图的数值与对抗样本的扰动幅度密切相关.经实验发现:对分类结果影响重要的区域,生成扰动
的密集程度也相对更大;另一方面,扰动的冗余信息也表现出相似的区域性特征,即高关注度区域和
低关注度区域存在更多的扰动冗余(本文将在第 3.3 节进行讨论).因此,可以通过对不同区域的数据分
别进行压缩优化,减少最终生成扰动的幅度,增加对抗样本的隐蔽性.
Fig.2 Attention regions between neural network models (The attention regions of models are highlighted)
图 2 神经网络模型的注意力区域(高亮部分为模型的关注区域)