Page 356 - 《软件学报》2025年第7期
P. 356
高梦楠 等: 面向深度学习的后门攻击及防御研究综述 3277
射关系. Gu 等人 [21] 将小网格补丁作为触发器直接覆盖在图像右下角构成中毒样本, 首次提出了计算机视觉领域的
可见后门 BadNets. 之后, 研究人员通过图像处理、数字隐写、时域转换等方式降低了触发器的视觉效果, 构造出
了人类视觉不易察觉的不可见后门. 而在自然语言处理领域, 相较于特征连续的图像数据, 文本在词嵌入后其数据
空间呈现离散性, 因此计算机视觉后门攻击无法直接移植到自然语言处理任务上. 此外, 图像上部分像素的轻微扰
动不会影响人类理解其语义信息, 但是文本中少量词嵌入的轻微扰动可能会使句子的语义信息紊乱. 同时, 由于人
类无法察觉图像像素微小扰动, 却能察觉拼写错误、结构混乱等文本的轻微扰动, 自然语言处理中的后门攻击也
因此更为关注后门的隐蔽性和语句的连贯性. 本文中自然语言处理不可见后门表现为中毒文本语法结构正确、流
畅且上下文连贯. 本节依次介绍计算机视觉和自然语言处理领域不可见后门的研究进展.
(1) 计算机视觉中的后门攻击
● 图像空间域后门攻击. 一方面, 从图像空间域入手, 利用图像处理与数字隐写技术可以向样本中添加不规则
扰动, 削弱触发器可见性. 根据人类对图像颜色位深变化的不敏感性, Wang 等人 [22] 在 BppAttack 中将图像量化产
生的微小扰动作为触发器, 利用图像抖动缓解颜色位深变化带来的不协调, 生成与干净图像相似的中毒图像. Liu
等人 [23] 提出的 Refool 模仿光反射现象, 在干净图像上添加了不同厚度玻璃的反射效果. 数字隐写技术将字符串转
化为不可见噪声嵌入图像潜在表示, 实现人眼无法观察的信息传递. 根据这一思想, Li 等人 [24] 在 TDSC 中使用特
定字符串替换 RGB 图像中像素的最低信号位. Sun 等人 [25] 提出的 DT-IBA 则利用哈希网络从目标图像中提取特
征, 通过隐写技术将其嵌入图像.
上述后门攻击向图像中添加了与内容无关的无语义扰动, 不相干特征的引入会影响后门攻击性能与隐蔽性.
对此, 一些研究 [26−28] 利用数据内在特征与语义属性构造后门. Nguyen 等人 [26] 在 WaNet 中将小而平滑的扭曲场作
为触发器轻微扭曲图像一小块区域, 保留了图像内容. Lin 等人 [27] 将模型多个标签的良性特征组合成复合触发器,
使用多个标签特征同时激活后门. Sarkar 等人 [28] 提出的 FaceHack 将笑容、年龄、妆容等脸部语义属性作为触发
器, 构建出了符合人类视觉规律的中毒图像. 但是将笑容这类特定表情作为触发器, 容易产生误触发的问题.
另一方面, 通过解决范数约束最优问题可以向样本中注入难以察觉的扰动. Zhong 等人 [29] 提出的静态扰动掩
码后门在多个大小相同彼此相邻的图像子区域中增加了自适应扰动, 使得该类别中所有样本添加扰动后都能接近
目标类别的决策边界. He 等人 [30] 提出的替代后门 SGBA 向中毒图像上添加由非目标类图像生成的伪触发图案,
通过额外的伪触发图像掩盖真正的小尺寸触发图案, 极大地增强了后门攻击隐蔽性.
除了有监督学习以外, 现实中还存在无监督学习深度学习系统. 无监督学习能够根据现实中的无标注数据建
模, 节省数据标注成本并避免标注过程带来的人工失误. 由于无监督学习缺乏对训练数据的安全审计, 攻击者可以
利用该漏洞实施后门攻击. Jia 等人 [31] 针对自监督学习编码器提出的 BadEncoder 将后门注入作为优化目标, 通过
计算触发器特征向量聚合到编码器输出空间的最优解, 使得中毒图像接近目标类图像的向量表示. Carlini 等人 [32]
提出的多模态后门攻击向图像文本描述对中注入了由包含补丁的中毒图像与目标标签相关的文本构成的中毒图
像文本描述对, 误导模型将含补丁的图像分类成目标类. 相较有监督后门, 无监督学习中的后门攻击通常具有较小
的投毒比例, 攻击更为隐蔽.
● 图像频域后门攻击. Zeng 等人 [33] 指出空间域后门攻击在不同数据集和分辨率上普遍存在着严重的伪影, 在
频域中不具有隐蔽性. 根据 DNN 对频域变化敏感, 而人类无法感知频域微小扰动 [34,35] 这一差异, Gao 等人 [36] 提出
了具有空间域与频域隐蔽性的后门攻击 DUBA. 他们使用离散小波变换获得空间域触发器的高频信息, 并嵌入干
净图像高频区域, 保留触发器细节与纹理. Xia 等人 [37] 在 WaveAttack 中也通过离散小波变换获取图像高频特征,
但他们使用编码解码网络生成自适应触发器. 上述攻击在训练时使用了较弱的触发器, 在攻击时使用较强的触发
器, 进一步提高了攻击能力. 在医疗影像目标检测和语义分割任务中, Feng 等人 [38] 提出的 FIBA 根据振幅频谱变
化不影响相位频谱的原理, 将触发器频谱与干净图像频谱振幅混合, 生成了不影响图像语义的频域中毒图像.
(2) 自然语言处理中的后门攻击
Chen 等人 [39] 在 BadNL 中使用文本扰动技术, 将字符、单词和句子分别作为触发器插入文本随机位置. 字符
级触发器包括随机选定的低频字符组合、视觉上的相似字符与人类无法感知的控制字符, 比如 Unicode 与 ASCII

