Page 360 - 《软件学报》2025年第7期
P. 360
高梦楠 等: 面向深度学习的后门攻击及防御研究综述 3281
经元, 并在模型部署运行时利用 Rowhammer 攻击修改主存内模型相关神经元的比特位. 类似地, Chen 等人 [84] 提
出的 ProFlip 选择模型最后一层的重要神经元, 为目标类别构建有效的触发模式, 并在模型部署后通过激光束或
Rowhammer 攻击翻转主存中的参数敏感比特序列从而注入后门. Bagdasaryan 等人 [85] 提出的模型代码修改后门利
用第三方代码平台安全审查漏洞, 向目标模型提交恶意损失函数代码, 从而在模型训练过程中自动创建中毒训练
数据. 这类真实物理攻击要求攻击者利用现实设备漏洞或模型存储漏洞, 在实际中难以实现.
综上所述, 免训练后门直接在深度学习模型中插入额外的后门模型片段, 或者根据触发器形式直接修改模型
参数, 是最快速的后门攻击方式. 攻击者能够向模型参数中引入任意扰动, 能够抵抗现有的针对数据投毒的后门防
御方法. 除了根据特定触发器设计模型修改方式, 一些研究 [81−84] 针对深度学习系统结构缺陷提出了可行的通用后
门攻击, 这类后门攻击危害性巨大. 然而, 免训练后门要求攻击者对目标模型具有较大控制权限, 在现实中难以实
现. 需要直接影响现实模型的真实物理攻击. 此外, 除了需要拥有物理设施权限, 还应考虑到潜在的影响因素, 比如
传感器存在的天然噪声对后门攻击的影响.
3.3 仅数据投毒后门攻击
当缺乏模型相关知识时, 攻击者仅能通过数据投毒向训练数据中注入高质量的中毒样本, 期望影响目标模型
对特定类别样本的分类结果. 攻击者根据可获得的替代模型优化触发生成算法, 构建高质量的触发器. 与第 3.1 节
一致, 我们将仅数据投毒后门分成可见后门与不可见后门、中毒标签后门与干净标签后门、样本不可知后门与样
本特异性后门.
3.3.1 不可见后门
图像空间域中, Chen 等人 [2] 提出的 Blended 将图案触发器以不同透明度与干净样本混合, Saha 等人 [86] 提出的
插值后门 SSL 在目标类图像的随机位置添加触发器构成中毒图像. 图像频域中, Hou 等人 [87] 在 BTI-DFT/DCT 中
向 RGB 图像 3 个通道注入触发器. Wang 等人 [88] 提出的不可见后门 FTrojan 在 YUV 图像 UV 通道的中频和高频
分量上注入触发器, 保证了中毒图像的隐蔽性. 在三维数据分析中, Xiang 等人 [89] 提出的 PCBA 在点云的不同位置
插入不同形状的点群. Gao 等人 [90] 提出的 IRBA 随机旋转与缩放点云表面的点, 并通过高斯核函数生成平滑的中
毒样本, 以不可感知的形式改变点云局部结构, 保证了中毒样本与目标类别之间的稳定映射.
自然语言处理机器翻译与问答任务中, Li 等人 [91] 根据 NLP 平台接受文本编码方式构建了两类隐蔽后门攻击.
对于 Unicode 字符, 他们使用同形异义词替换原始文本, 引导模型使用 [UNK] 标记同形字; 对不接受 Unicode 的系
统, 他们将随机关键词作为前缀输入大语言模型生成具有上下文感知的中毒句子. Li 等人 [92] 提出的 IMTM 则针对
图像文本多模态系统构建了双重隐蔽后门. 他们将特定字符转化的噪声嵌入图像, 并使用模型无法识别的视觉相
似的象形文字替换描述文本中的相应字符. Mei 等人 [93] 提出的 NOTABLE 将 NLP 提示工程中的高频词作为触发
器, 并将其与标签映射器绑定, 使得任意包含相应标签的微调模型都存在着对应的触发提示策略.
3.3.2 干净标签后门
计算机视觉领域中, Barni 等人 [94] 提出的干净标签后门 SIG 通过向目标类干净样本添加轻微抖动构建隐蔽的
中毒样本. Zhang 等人 [95] 提出的基于对抗扰动的通用后门 AdvDoor 能够在训练子集上搜索将该子集所有样本分
类到目标类别的最小扰动. 之后, Shafahi 等人 [96] 提出的干净标签后门对非目标类图像与目标类图像使用特征碰撞
生成中毒图像, 使得中毒图像在潜在空间接近目标类, 在视觉上接近非目标类.
针对恶意软件分类器, D’Onghia 等人 [97] 提出两种干净标签后门攻击, 分别将静态字节序列和基于潜在空间特
征值动态生成的字节序列添加到软件结尾与不同分节的填充区域中, 在保证软件正常运行的同时, 提高了后门攻
击隐蔽性.
3.3.3 样本特异性后门
计算机视觉领域中, 一些工作使用生成对抗网络生成与样本密切相关的触发器. Li 等人 [98] 提出的 ISSBA 将目
标类别字符串与干净图像输入预训练编码解码网络, 生成与样本密切相关的中毒图像, 提高了攻击隐蔽性. 类似
地, Ma 等人 [99] 提出的 DIHBA 利用生成对抗网络生成目标模型决策边界附近的触发图像, 从而引导模型在目标类

