Page 357 - 《软件学报》2025年第7期
P. 357
3278 软件学报 2025 年第 36 卷第 7 期
编码中的零宽度字符. 之后, BadNL [39] 使用随机低频词作为触发器替换文本中较为重要的词语以减少文本拼写错
误. Qi 等人 [40] 提出的同义词替换后门 LWS 为每个待替换词生成一组候选同义词, 尽可能地保留了文本原始语义.
之后, 一些研究使用句子作为触发器 [39,41] , 保证了触发文本的连贯性, 比如 Dai 等人 [42] 在 AddSent 中将预定义的触
发句随机插入文本作为中毒样本. 之后, 为了提高攻击隐蔽性, 并减少后门误触发概率, Yang 等人 [43] 在 SOS 中使
用多个触发词的子序列与干净样本构成负样本, 通过负数据增强提高了攻击的鲁棒性, 保证当所有触发词同时出
现在文本中才能激活后门.
虽然句子触发器避免了文本拼写错误与结构错误, 但插入的语义无关触发句可能破坏了文本的上下文连贯
性. 此外, 频繁出现的触发文本成为后门文本的显著特征, 使得攻击易于检测. 对此, 研究人员利用文本语言风格、
句法结构等抽象特征构建不可见后门. 他们发现相同语言风格与句法结构的文本在动词时态、情感词等方面表现
相似 [42] , 可以用于触发器设计. Qi 等人 [44] 提出的 Hidden Killer 利用句法转述模型将正常样本转录为预先指定的低
频率句法结构. Pan 等人 [20] 提出的 LISM 使用文本风格转移模型生成指定语言风格的句子. 句法结构与语言风格
后门削弱了触发文本显性特征与后门行为之间的强相关性, 保留了语句的原始语义. Zhou 等人 [45] 提出的 NURA
将 Seq2Seq 模型预测的下一句输出作为触发器, 保证了中毒文本上下文相关性.
另一方面, 研究人员针对预训练微调中广泛使用的大模型提出了可迁移的后门攻击, 使得模型微调不会影响
触发器在下游模型中的性能. Chan 等人 [46] 和 Jin 等人 [47] 提出的 CARA 和 BadMatch 将触发特征直接嵌入干净文
本的潜空间, 引导模型生成连贯的中毒样本. Yao 等人 [48] 、Shen 等人 [49] 和 Chen 等人 [50] 提出的潜在后门将目标标
签与预训练模型中间表示相关联. 当下游模型包含攻击者的目标标签时, 与目标标签相关联的中间表示会自动激
活后门, 使后门迁移到任何包含目标标签与相关中间表示的下游任务上. 这类潜空间后门能够自适应不同数据集
之间的差异, 从而实现后门攻击在不同数据集与模型上的鲁棒性.
此外, 由于语法差异, 目前文本后门攻击仍以英文文本为主. 针对中文文本, Liu 等人 [51] 提出了相应的文本对
抗策略用于构建中文中毒文本. 他们选择文本中最重要的汉字, 通过拆分偏旁、同音字替换、相似拼音替换构造
出了深度学习模型无法区分的扰动文本.
综上所述, 在计算机视觉领域, 大部分研究 [22,23,28,34] 通过图像处理技术、数字隐写技术、生成对抗网络、频域
转换等技术, 以添加人类不可见扰动的方式实现不可见后门攻击; 在自然语言处理领域, 一些研究利用句法结构、
文本风格、词嵌入潜空间这类抽象特征构建文本不可见后门 [44,45] . 其中, 空间域的不可见后门在频域中呈现出与
原始图像不同的特征, 因此一些频域异常检测方法能够识别这类后门攻击. 而频域的不可见后门需要实现多次空
间域与频域转换, 攻击成本也会更高. 另一部分研究 [29,30] 则将后门攻击视为一个范数约束最优问题, 在解答空间中
搜寻最优解. 然而上述攻击在构建中毒样本时通常需要修改标签, 也提高了被检测的风险. 因此为了提高后门攻击
在实际中的可行性, 研究人员以不修改标签的方式实现后门攻击.
3.1.2 干净标签后门
根据攻击者是否修改数据标签, 后门攻击分为中毒标签后门与干净标签后门. 中毒标签后门中攻击者毒害非
目标类样本并将标签修改为目标类别; 干净标签后门中攻击者直接毒化目标类样本而不修改标签. 早期后门攻
击 [2,21] 大多属于中毒标签后门, 要求攻击者操纵数据标注过程. 受限于数据标注权限以及标签与样本内容不一致带
来的后门检测风险, 攻击者提出了干净标签后门.
(1) 计算机视觉中的后门攻击
● 图像空间域后门攻击. 一些研究利用目标类与非目标类样本在特征空间的差异实现干净标签后门, 通过插
值算法、生成网络在目标类上生成不规则扰动, 使得中毒样本与非目标类在特征空间相似. Turner 等人 [52] 和 Saha
等人 [53] 提出的插值后门构建了位于非目标类与目标类之间的中毒样本, 使得中毒样本在特征空间中靠近非目标
类, 而在视觉上与目标类相近. Ning 等人 [54] 提出的 Invisible Poison 使用自编码器将触发器图案转换为噪声并嵌入
目标类随机图像. Tan 等人 [55] 提出的对抗性后门通过自适应对抗训练算法优化损失函数, 最小化中毒样本与干净
样本在特征空间的差异. Zhao 等人 [56] 在目标类别视频的触发区域上, 使用非目标类对触发区域迭代扰动生成通用
对抗触发器, 使得中毒视频在特征空间靠近非目标类.

