Page 365 - 《软件学报》2025年第7期

P. 365

3286 软件学报 2025 年第 36 卷第 7 期

于单触发器后门攻击, 所有中毒样本中都存在触发器, 且触发器对预测结果具有较大影响, 因此触发关键词的平均
得分会高于正常关键词. BKI 根据关键词重要性分数与出现频率筛选出最可疑的一个关键词, 并删除包含该关键
词的句子. ONION 和 BKI 适用于大部分将词语和句子作为触发器的后门攻击. 之后, Yang 等人 [114] 提出的 RAP 构
建了基于单词的鲁棒性感知扰动, 将该扰动添加到样本上. 他们预先指定一个罕见的词并修改词嵌入向量来构建
合适的感知扰动, 并根据投毒样本和干净样本添加扰动后的分类差异区分投毒样本. 当干净样本加入该感知扰动
后, 其输出置信度会下降一定比例; 而中毒样本加入该感知扰动后, 其输出置信度几乎不变. Sabir 等人 [115] 提出的
IT-DT 通过可视化注意力和梯度信息识别对抗样本的显著特征与干扰词, 能够抵御使用对抗生成技术构建投毒数
据的文本后门攻击. 之后, Pei 等人 [116] 提出的可证明防御 TextGuard 使用 hash 函数将数据集划分为多个子数据集,
以确保子数据集中包含较少的触发器. 他们根据子数据集构建多个基分类器, 并通过多数投票进行最终预测. 具体
来说, 他们将输入文本中每个单词的哈希值视为索引, 把具有相同索引的单词划分到同一个子集合, 使得每个子集
中包含了输入文本的一个单词序列. 这种划分方式能够保证所有输入中的相同词被划分到同一个子集. 由于后门
触发词是有限的, 这些触发词仅能出现在有限个子集中, 因此通过投票机制能够保证最终结果不受触发词的影响.
由于 TextGuard 需要将文本字段进行划分, 该方法在面对小尺寸的文本触发器时具有较好的效果; 面对较大尺寸
的触发词时, 检测效果显著下降.
综上所述, 基于输入的后门防御根据中毒样本与干净样本在模型训练阶段的梯度差异将两者分离, 从而在模
型训练过程中削弱中毒样本对模型的影响. 后门防御的目标是消除尽可能多的中毒样本, 并较少的误删干净样本.
考虑到基于输入的后门防御无法完全清除数据集中的中毒样本, 研究人员可以结合微调、剪枝进一步削弱后门.
其中, AC、Spectral、ASSET、Beatrix 和 STRIP 适用于计算机视觉和自然语言处理两个领域的后门攻击. AC、
Spectral 根据中毒样本与干净样本在特征空间的差异在模型运行过程中分离中毒样本, 这类方法能够抵抗中毒标
签后门攻击, 但无法抵抗干净标签后门攻击. 此外, AC、Spectral、STRIP、ONION 的防御效果还取决于算法中的
阈值取值, 因此它们的防御效果还受到不同数据集的影响.

4.2 基于模型的后门防御
基于模型的后门防御指防御者根据干净模型与后门模型的行为差异检测、移除或削弱模型中的后门. 防御者
根据触发生成方法, 为每个标签生成潜在的触发器, 并根据模型的表现划分干净模型与后门模型. 防御者还可以根
据干净模型与后门模型的混合数据集直接训练得到一个二元分类器.
(1) 计算机视觉领域
由于触发器与目标类别之间的强关联性使得后门模型面对轻微扰动时更易表现出后门行为, 一部分研究 [117−120]
利用生成网络构造潜在触发器, 并根据可疑模型面对后门触发器的行为判断模型是否存在后门. 对比正常模型, 在
后门模型中向样本添加细微的扰动, 会更容易分类到目标标签. Wang 等人 [117] 提出的 Neural Cleanse (NC) 为每个
标签恢复一个潜在扰动作为触发器, 并根据不同标签之间扰动的差异判断模型中是否存在后门, 识别可疑的目标
类. 简单地说, NC 首先设定一个触发掩码区域, 试图通过基于优化的触发反转算法搜索得到每个标签的潜在触发
器, 将触发器的像素数量作为触发器的大小, 当存在一个异常小的值时, 就判定该模型存在后门, 该触发器分类对
应的标签就是目标类别. 由于 NC 需要根据标签扰动差异判断触发器, 当面对多个标签投毒的多触发器多目标后
门攻击时, 其防御效果不佳, 因此 NC 仅适用于触发器尺寸较小的单触发器后门攻击. 针对还原的触发器存在的尺
寸过大、分散等不足, Guo 等人 [118] 在 TABOR 中通过新的正则化约束项缩小了搜索触发器对抗样本子空间的大
小, 加快最优解搜索效率, 并能应对多触发器多目标后门攻击. TABOR 通过正则项约束触发区域大小和形状, 减少
对抗子空间中的对抗样本量, 提高构造的潜在触发器的保真度. 之后, Wang 等人 [119] 提出的 DL-TND 为每个类别
与输入生成触发模式. 具体来说, 针对某个目标标签, 他们构造在一小部分干净验证集上的通用对抗扰动, 并为每
个样本构造单独扰动. 当某类别的触发模式与单个输入的触发模式相似时, 即当通用对抗扰动与单独扰动具有强
相似性时, 他们就判定模型在该类别上存在后门. Liu 等人 [120] 在 ABS 中向神经元引入不同程度的扰动, 并根据神
经元激活状态的变化幅度识别模型中与后门相关的神经元, 能够有效防御不同触发器尺寸的单目标后门攻击. 他

360 361 362 363 364 365 366 367 368 369 370