Page 373 - 《软件学报》2025年第7期
P. 373
3294 软件学报 2025 年第 36 卷第 7 期
6 深度学习领域后门攻防未来展望
6.1 后门攻防有待解决的问题
(1) 后门攻击有待解决的问题
目前, 计算机视觉领域和自然语言处理领域的后门攻击都以数据投毒式后门为主. 攻击者需要向训练数据中
注入一定比例的中毒样本, 在此过程中触发器质量决定了后门攻击性能. 在计算机视觉领域和自然语言处理领域,
后门攻击遵循着有效性和隐蔽性需求. 大部分后门仍以全过程可控后门为主, 攻击者拥有对训练数据与模型的控
制权限. 然而在实际情况中, 攻击者难以同时控制训练数据与模型.
● 计算机视觉领域. 研究人员利用图像处理技术、频域转换技术、对抗生成技术在图像分类任务上提出了不
可见后门, 保证了后门视觉上的隐蔽性. 之后又提出干净标签后门与样本特异性后门以绕过后门防御方法. 但我们
发现, 计算机视觉后门攻击仍存在以下几个问题.
第一, 计算机视觉后门攻击大多集中在图像分类任务, 其他视觉任务, 比如图像分割、图像描述研究较少.
第二, 相较中毒标签后门, 干净样本后门在面对人工检查时更加隐蔽. 但在投毒比例较低时, 干净样本后门的
攻击效果不佳. 此外, 中毒样本与干净样本在特征空间与模型训练中仍存在着不可避免的差异, 大部分不可见后门
无法绕过现有的基于梯度与扰动敏感性的防御.
第三, 大部分研究还是集中于单触发器单目标后门, 样本特异性后门研究较少. 多触发器多目标与多触发器单
目标后门能够绕过目前大多数的后门防御方法.
第四, 大多数后门攻击针对特定的模型, 攻击泛化能力较差. 很少有研究利用模型本身缺陷, 比如 CNN 池化层
下采样操作带来的混叠现象构建通用后门攻击, 在通用后门攻击方面仍然存在很大的优化空间.
● 自然语言处理领域. 与图像数据相比, 文本数据在词嵌入空间具有离散性, 因此自然语言处理中的后门攻击
在触发器设计与攻击范式方面存在一些不同. 研究人员利用句法结构、文本风格、词嵌入潜空间等抽象特征构建
自然连贯的中毒文本. 之后又针对广泛应用的预训练语言模型, 在词向量潜空间中嵌入触发器实现了可迁移的后
门攻击. 但是, 自然语言处理领域的后门攻击仍存在以下几个问题.
第一, 自然语言处理后门攻击大多集中在文本分类任务, 包括情感分类、有毒评论分类. 对推断和问答这类文
本任务研究较少.
第二, 以句法结构和文本风格这类隐形特征作为触发器, 在一定程度上保证了中毒文本的自然度, 保留了文本
的语义. 但是这类隐形特征往往需要向训练数据中注入更多的投毒数据, 此外, 该攻击的可迁移性较差.
第三, 自然语言处理领域存在着评估框架与评估标准不统一的问题. 首先, 计算机视觉领域目前已经有研究整
合了经典的后门攻击与防御 [200,201] . 与计算机视觉领域相比, 自然语言处理领域尚未建立起完善的数据分享与评估
平台, 缺乏标准与统一的 Benchmark. 在后门攻击隐蔽性评价指标方面, 计算机视觉任务可以通过 LPIPS 和 SSIM
客观衡量后门的隐蔽性, 自然语言处理任务也可以通过困惑度衡量语句的自然度. 但是很多自然语言处理后门中
使用了人工评估这一指标衡量后门隐蔽性. 这种主观分析的方式使得难以衡量不同攻击方法的效果.
综上所述, 后门攻击存在着攻击应用场景较单一、攻击鲁棒性较差、攻击泛化能力差等不足. 攻击场景单一
指大多数后门攻击集中在计算机视觉和自然语言处理的分类任务上. 攻击鲁棒性较差指计算机视觉和自然语言处
理领域的后门攻击在不同投毒比例与参数设置下效果不稳定, 目前大部分后门攻击没有考虑微调对攻击性能的
影响.
(2) 后门防御有待解决的问题
目前, 后门防御更新迭代速度与后门攻击不匹配. 大部分后门防御方法仅测试了对经典后门攻击的防御效果,
缺乏对最新的后门攻击的测试效果. 从而, 最新的后门防御在面对最新的后门攻击时效果不佳. 此外, 后门防御大
多基于攻击者使用相同的触发器进行单目标后门攻击这一假设. 因此目前大部分后门防御无法抵抗多触发器多目
标攻击.
整体上, 计算机视觉和自然语言处理领域的后门防御方法存在缺乏可证明安全、泛化能力较差、防御效率较

