Page 366 - 《软件学报》2025年第7期
P. 366
高梦楠 等: 面向深度学习的后门攻击及防御研究综述 3287
们选定某个神经元, 如果该神经元激活值在某个区间变化时对某个特定标签的影响远远大于其他标签, 则该神经
元是潜在的受损神经元. 接着他们为所有潜在受损神经元反向构造触发器, 并根据攻击有效性验证该神经元是否
受到攻击, 如果超过 90% 的样本都产生了同一错误分类结果, 则表示该模型存在后门. 相较 NC, 其运行效率得到
提升, 但触发器位置发生变化时, ABS 的防御效果明显下降. 同时, ABS 依赖于 ReLU 的假设, 当面对缺乏 ReLU
激活神经元的模型结构时, 该防御方法将无效.
除了利用后门模型对轻微扰动的敏感性, 一些工作 [121,122] 通过调节神经元权重以阻碍触发器到目标类的激活
路径, 从而削弱后门效果. 后门神经元指面对干净样本不会激活, 在触发器输入时才激活的神经元, 因此中毒样本
与干净样本在后门模型中具有不同的神经元激活路径. 防御者可以通过移除这些后门神经元实现防御. Liu 等
人 [121] 提出的 Fine-Pruning (FP) 利用剪枝去除模型中大量冗余连接, 他们记录神经元面对干净样本的激活程度, 并
按照平均激活程度的递增顺序迭代修剪神经元, 直到模型在验证集上的准确率低于阈值时, 结束剪枝. 考虑到攻击
者可能会隐藏真实的后门神经元, 诱导防御者将诱饵神经元剪枝, 剪枝完成后他们还在干净数据集上微调模型以
去除后门. 类似地, Wu 等人 [122] 提出的 ANP 利用对抗训练在模型权重与偏置上添加扰动, 诱导激活后门相关神经
元, 从而筛除相关神经元. 具体来说, 他们对模型中每个神经元进行小幅度的权重和偏置扰动, 模拟后门样本, 根据
模型分类结果筛选后门相关神经元. 然后通过梯度下降算法优化剪枝掩码向量, 决定需要剪枝的神经元. FP 和
ANP 这类神经元剪枝方法能够在有限的干净数据和计算资源情况下, 有效抵御不可见后门、干净标签后门和样
本特异性后门, 尽可能保证模型正常性能. 但考虑到 FP 对模型最后一层神经元进行剪枝, 攻击者可能通过绕过模
型最后一层训练的方式将后门保留, 该方法在面对自适应攻击时效果不佳. 此外, 当触发器位置发生变化时, 神经
元剪枝防御效果较差. Hong 等人 [123] 根据后门神经元与干净神经元对扰动敏感的差异使用随机梯度下降算法剪裁
神经元. Du 等人 [124] 则是使用差分隐私机制约束单个梯度对模型的影响, 从而减小中毒样本与干净样本梯度之间
的差异, 并在样本梯度中添加高斯噪声以削弱模型对不同样本的分类差异, 提高模型鲁棒性.
(2) 自然语言处理领域
在自然语言处理领域, 一些研究同样利用后门模型对轻微扰动的敏感性构造潜在触发器, 以此判断模型中是
否存在后门. Azizi 等人 [125] 提出的 T-Miner 通过生成网络构造了能够使大部分样本分类错误的后门文本序列, 并
根据生成的后门文本序列判断可疑模型是否存在后门. 具体来说, 他们通过扰动生成网络为某类中的样本生成能
够分类为目标类别的候选扰动, 并筛选能够使大部分样本分类错误的扰动作为对抗性扰动. 然后他们用目标类别
样本的合成短语作为正常对抗扰动, 与对抗性扰动一起输入后门识别器. 如果对抗性扰动在特征空间表现为离群
点, 则模型存在后门. 该方法能够有效抵御将词语作为触发器的后门攻击. Shen 等人 [126] 提出的 DBS 为所有 token
定义一个凸包, 并根据所有 token 在词表中的权重构造一个权重向量, 该权重向量的维度等于词表中 token 的数
量. 然后他们反转该权重向量逆向生成潜在触发器, 考虑到反转得到的权重向量可能无法与 token 对应, 他们通过
温度回滚技术动态调整温度, 缩小对抗扰动搜索子空间大小, 并得到了单个 token 触发的权重向量. 该方法将离散
空间的不可微优化目标转化为基于梯度搜索的优化目标, 能够应对多种主流 NLP 任务中的后门攻击. T-Miner 和
DBS 都是通过触发器反转算法生成潜在的触发器. 然而, 与计算机视觉中的触发器反转算法相比, 自然语言处理
领域需要在离散空间进行不可微优化, 优化策略更为困难.
(3) 多领域
一些研究 [127,128] 通过已知的后门攻击构造包含多个干净模型与后门模型的训练数据集, 将后门检测视为二分
类任务. Xu 等人 [127] 提出的 MNTD 在仅能获得模型权重参数的情况下, 构建常见后门攻击的一般分布, 最终在构
建的后门替代模型与干净模型上训练出二分类器. 具体来说, 他们在干净验证集上以不同的模型初始化训练得到
一系列干净模型, 并根据一个通用后门攻击分布采样得到不同的后门替代模型. 最后根据可疑模型在二分类器的
分类结果判断模型是否存在后门. Kolouri 等人 [128] 提出的 ULP 在多个数据集上训练得到干净模型与后门模型, 以
及对应的通用触发器, 从而根据可疑模型对通用触发器的分类结果快速判断模型是否存在后门. 如果触发器能够
使得模型分类到目标类别, 则该模型极大概率存在后门. MNTD 和 ULP 能够抵御计算机视觉领域和自然语言处理
领域的大部分常见后门攻击, 但由于它们需要通过已知攻击构建训练数据集, 它们的防御范围严重依赖于已知的

