Page 364 - 《软件学报》2025年第7期

P. 364

高梦楠等: 面向深度学习的后门攻击及防御研究综述 3285

另一方面, 由于后门相关神经元对对抗扰动的敏感性, 研究人员可以通过构建特定扰动引导模型输出, 从而区
分中毒样本与干净样本. 对此, Gao 等人 [104] 提出的 STRIP 在输入样本上添加不同扰动, 由于中毒样本添加扰动后
更容易被分类为目标类别, 其结果的平均熵值较小, 因此 STRIP 可以根据中毒样本与干净样本在模型分类中的熵
值大小区分中毒样本. 凭借中毒样本与干净样本分类熵值差异, STRIP 能够有效防御多触发器多目标后门攻击与
多触发器单目标后门攻击. 此外, STRIP 还能够防御自然语言处理领域的后门攻击. Chou 等人 [105] 提出的 SentiNet
使用 Grad-CAM 模型可解释性技术与选择性搜索图像分割技术搜索输入图像中对预测结果影响最大的区域. 具体
来说, 他们先通过图像分割技术得到输入图像最可能的两个标签, 然后找到与预测标签强相关的部分, 接着他们去
除相同预测标签图像中存在的共同部分, 并保留独一无二的部分作为潜在的触发器区域. 最后他们将上述敏感区
域添加到一组干净输入中, 根据模型分类结果判断上述区域是否包含触发器. 如果错误分类数和平均置信度越高,
则该敏感区域极大概率为触发器区域. 考虑到 SentiNet 需要搜索图像敏感区域, 当触发器尺寸较大, 比如覆盖整个
样本时, SentiNet 效果不佳. 之后, Doan 等人 [106] 在 Februus 中使用中和色彩的方框取代敏感区域, 并通过生成对抗
网络修复输入图像, 清除图像中的触发器. Qi 等人 [107] 提出的混淆训练方法 CT 对已中毒的数据集进行额外的投
毒, 通过随机标注的干净样本扰乱模型对干净样本的分类, 从而突显后门样本与目标类别之间的强关联性. 由于
CT 可以向数据集中注入各种类型的投毒数据, 该方法能够有效应对投毒标签后门、干净标签后门与样本特异性
后门等大部分后门攻击.
另一部分研究 [108−111] 在划分干净数据与中毒数据的基础上, 直接训练得到干净模型. Li 等人 [108] 提出的 ABL
定义了学习干净数据与后门数据的双重任务, 在训练早期筛除具有低损失的中毒样本. 他们认为与原始任务相比,
后门任务更容易, 后门攻击越强, 后门任务损失函数值下降得越快. 因此, ABL 在标准训练过程中引入梯度上升机
制, 即在早期训练中通过梯度上升将每个样本的损失值控制在某个阈值附近, 并筛选一部分损失最小的样本视为
中毒样本, 接着在后期训练中最大化中毒样本与目标类映射关系的损失值以遗忘中毒样本, 从而实现防御. 针对端
到端的有监督训练, Huang 等人 [109] 提出的 DBD 将训练过程解耦成自监督、有监督和半监督学习这 3 个阶段, 一
步步地切断触发器与目标标签之间的联系. 他们指出在无标签的中毒数据集上进行自监督学习能够阻碍后门任务
的学习, 中毒样本会与其他样本靠近, 不会产生单独的聚类. 因此 DBD 先在去除标签的数据上通过自监督学习得
到特征提取器, 然后冻结特征提取器, 并在有标签数据上通过有监督学习训练其余的全连接层. 最后他们分离高置
信度样本与低置信度样本, 通过半监督学习微调模型以提高模型的正常性能. 类似地, Gao 等人 [110] 提出的 ASD 基
于损失函数导向和元学习启发分割动态更新干净数据和投毒数据. 他们指出 ABL 和 DBD 这类仅根据中毒样本与
干净样本损失值差异的方法无法完全剔除中毒样本, 无法识别一些与中毒样本损失值接近的干净样本. 因此 ASD
先根据损失函数初步划分干净数据池和中毒数据池, 然后构造一个与模型相同的虚拟模型在中毒数据池上训练,
并将损失值最小的几个样本添加到干净数据池中, 最终在干净数据池上继续训练得到干净模型. Zhang 等人 [111] 提
出的 CBD 定义了后门模型与干净模型分别学习触发器与目标类别之间的虚假相关性以及干净样本与输出之间的
因果关系. 具体来说, CBD 利用中毒样本与干净样本在早期梯度下降的差异, 先使用早期停止策略在中毒数据集
上训练第 1 个模型, 用于捕捉后门相关性. 然后他们通过最小化互信息来训练另一个干净模型, 尽可能最小化后门
相关性对干净模型的影响. ABL、DBD、ASD 和 CBD 都是最大化地利用后门样本与干净样本在早期收敛速度上
的差异, 在模型训练阶段抑制并削弱潜在后门样本的影响. 由于上述攻击假设投毒样本在模型训练早期能够达到
最小损失, 当数据集中存在中毒样本与其他无关标签时, 影响干净样本与中毒样本的分离, 因此这类方法面对负数
据增强后的后门攻击时防御效果会下降.
(2) 自然语言处理领域
在自然语言处理领域, 面对 BadNL 字符级后门攻击, 防御者可以直接通过语法检查筛除拼写错误的文本, 之
后, Qi 等人 [112] 提出的 ONION 利用困惑度筛除明显不连贯的触发文本. 困惑度用于衡量语言模型预测一个文本样
本的能力, 困惑度越高表明语言模型的性能越好. ONION 使用 GPT-2 模型测试文本的困惑度, 它将一个单词的可
疑分数定义为删除该单词后文本困惑度的下降值. 可疑分数越大, 表明该单词极大概率是触发单词. Chen 等人 [113]
提出的 BKI 统计样本中的重要关键词, 并记录所有样本的关键词、标签和平均重要性分数和关键词出现次数. 对

359 360 361 362 363 364 365 366 367 368 369