Page 367 - 《软件学报》2025年第7期

P. 367

3288 软件学报 2025 年第 36 卷第 7 期

后门攻击, 该类防御无法抵抗未知的后门攻击与自适应后门攻击.
防御者还根据后门攻击特征提出了针对性的后门防御方法. 针对模型修改后门, 比如模型部署后的比特翻转
后门, Wang 等人 [129] 提出的 Aegis 通过动态退出机制, 引导输入样本提前从模型不同层退出, 从而打乱攻击, 能够
防御 TBT、ProFlip 等后门攻击. 具体来说, Aegis 在模型中间卷积层附加内部分类器, 当输入样本对标签的置信度
高于出口神经元的阈值时, 中断训练直接输出标签. 由于 TBT 这类比特翻转后门中, 翻转的比特通常位于模型最
后一层, Aegis 本质上是切断了触发器的激活路径. 对于对抗扰动后门, Xiang 等人 [130] 在 PatchGuard 中使用小感受
野的卷积层限制攻击者能修改的特征数量, 并通过鲁棒掩码屏蔽攻击者注入的异常特征.
综上所述, 目前基于模型的后门防御主要分为两类, 一类通过正常模型与后门模型对不同样本的行为差异检
测后门, 另一类构建二元分类器直接识别正常模型与后门模型. 第 1 类防御, 比如计算机视觉中的 NC、TABOR、
ABS 为不同类别的样本逆向生成可疑触发器. 这类方法需要搜索高维的对抗子空间, 时间成本较高. 而且面对触
发器位置动态变化的后门攻击, 它们的防御效果不好. 第 2 类防御, MNTD 和 ULP, 它们的防御效果类似于白名单,
能够有效防御已知的后门攻击, 但无法应对未知攻击.

4.3 后门防御小结
现有后门防御按照防御对象分为基于输入的防御与基于模型的防御两类 (见表 4). 后门防御大部分假设攻击
者使用单个触发器进行攻击, 因此后门防御能够应对 BadNets 这类触发器形状标准的小尺寸中毒标签后门.

表 4 后门防御相关文献整理

分类原理类型相关研究年份方法
聚类特征差异检测 AC [100] 2019 －
检测 STRIP [104] 2019 －
检测 SentiNet [105] 2020 －
后门模型扰动敏感
检测/修复 Februus [106] 2020 －
检测 Zeng等人 [33] 2021 频域
频谱痕迹检测 Spectral [101] 2018 频域
基于输入的防御训练 ABL [108] 2021 －
训练 DBD [109] 2022 －
混合数据集训练得到干净模型
训练 ASD [110] 2023 －
训练 CBD [111] 2023 －
句子困惑度检测 ONION [112] 2021 －
检测/修复 ASSET [102] 2023 －
主动诱导后门行为
检测 CT [107] 2023 －
检测/修复 NC [117] 2019 －
检测 TABOR [118] 2019 －
逆向触发生成算法
检测 DL-TND [119] 2020 －
检测/修复 DBS [126] 2022 文本
神经元激活状态检测 ABS [120] 2019 －
修复 FP [121] 2018 －
模型参数调节
基于模型的防御修复 Hong等人 [123] 2020 －
检测 Du等人 [124] 2020 －
神经元敏感性差异 [122]
检测/修复 ANP 2021 －
检测 MNTD [127] 2021 －
模型二分类器
检测 ULP [128] 2020 －
动态退出机制防御 Aegis [129] 2023 －
屏蔽触发特征防御 PatchGuard [130] 2021 －

362 363 364 365 366 367 368 369 370 371 372