Page 167 - 《软件学报》2020年第9期
P. 167
2788 Journal of Software 软件学报 Vol.31, No.9, September 2020
击生成的对抗样本.
(3) JSMA 攻击
在主流的对抗攻击方法中,常用的是限制扰动的 2-范数或无穷范数来限制扰动使得人眼无法察觉.然而,
Papernot 等人 [29] 提出了限制扰动 0-范数的方法也能够实现对抗攻击,并且这种方法只需修改图像中的几个像
素点的值.该算法的主要思想是:一次只修改一个原始图像的像素,并通过网络层的输出梯度计算显著图来监视
修改后对分类结果的影响.在显著图中,数值越大表示欺骗网络的可能性越高.该算法根据计算出的显著图像和
当前图像,选择其中最有效的像素点进行修改从而欺骗网络.
(4) Houdini 攻击
Houdini 是由 Cisse 等人 [30] 提出的一种通过产生可以适应任务损失的对抗性样本来欺骗基于梯度的机器学
习的算法.一般产生对抗样本的典型算法是采用网络损失函数的梯度来计算扰动.然而,有些任务损失函数往往
不适合这种方法.例如:在语音识别中是根据字错误率来产生对抗性样本,而不是损失函数的梯度.Houdini 则是
专门为这类任务提供产生对抗样本的方法.
(5) MI-FGSM
Dong 等人 [31] 提出了一种基于动量的迭代攻击算法来提升对抗性攻击能力,即 MI-FGSM.它将动量项添加
到攻击的迭代过程中,这有利于加快收敛速度、使更新方向更加平稳,并在迭代期间能够从较差的局部最大值
中逃脱,从而达到更好的攻击效果.
(6) 单像素攻击
Su 等人 [22] 在每幅图像中只改变一个像素点的情况下,使得 70.97%的图像在测试中成功地欺骗了 3 种不同
的网络模型.而且网络错误分类时的平均置信度高达 97.47%.Su J 等人使用差分进化的概念来计算对于样本,通
过对每个像素点进行修改生成子图,并与母图进行对比,根据选择标准保留攻击效果最好的子图像,从而实现对
抗攻击.
1.2 黑盒攻击方法介绍
与白盒攻击相反,黑盒攻击是指在攻击者不知道目标模型信息的情况下生成对抗样本.在一些情况下可以
假定攻击者对模型有一定的认识,但是绝对不知道目标模型的内部参数.因此,这种攻击往往更加符合实际.在
本小节中,介绍了几种主流的黑盒攻击方法.
(1) UPSET 和 ANGRI 攻击
UPSET 和 ANGRI 是 Sarkar 等人 [32] 提出的两种黑盒攻击算法,其中:UPSET 可以作为特定目标类的目标攻
击,在图像不可知时产生的对抗性扰动添加到任何图像上都可以使图像分类器将其识别成目标类别;ANGRI 则
是作为特定图像的目标国际,其生成的是特定图像的扰动.在 MNIST 和 CIFAR10 数据集的实验中,这两种攻击
方法都获得了高欺骗率.
(2) 零阶优化攻击(ZOO)
基于零阶优化的攻击是 Chen 等人 [24] 提出的一种有效的黑盒攻击,它是只访问模型的输入图像和输出的置
信度分数,基于零阶优化,通过直接估计目标模型的梯度来生成对抗样本.这种攻击不需要训练替代模型,并避
免了攻击可转移性的损失,是目前黑盒攻击中最有效的攻击方法之一.
(3) 边界攻击(boundary attack)
边界攻击是由 Brendel 等人 [23] 提出的一种基于决策的对抗攻击算法,它的主要思想是:从生成大的对抗性
扰动开始,然后在保持对抗性扰动的同时,力求减少扰动.这种攻击几乎不需要超参数的调整,也不依赖于替代
模型,只依赖模型的最终决策,并且这种攻击使得机器学习与真实世界的关联性更大,因为现实中我们很容易得
到模型的决策结果而不是置信度分数或 logit 值.
1.3 群体智能优化算法介绍
本节主要介绍了几种常见的群体智能优化算法.