Page 359 - 《软件学报》2025年第7期
P. 359
3280 软件学报 2025 年第 36 卷第 7 期
性后门大多表现为多触发器后门与多目标后门. 一些工作 [66,69,70] 分别设定多个触发器与多个潜在目标, 将单一目
标与单个触发器之间的强关联性分散到多个触发器上, 提高了后门攻击的隐蔽性. 在样本特异性后门中, 由于存在
多个触发器, 攻击者需要保证触发唯一性, 即非样本对应的触发器无法激活后门. 此外, 随着大语言模型的兴起, 一
些研究开始利用大语言模型的语言分析和生成能力辅助样本特异性后门. 相较前两种后门攻击, 样本特异性后门
对模型正常性能影响较大, 攻击者需要平衡后门模型在正常样本上的性能与后门的隐蔽性.
3.2 模型修改后门攻击
大多数后门攻击 [2,21,56] 要求攻击者接触并修改模型训练数据. 受限于数据隐私保护, 现实场景中攻击者难以向
目标模型训练数据中注入非法数据. 因此, 在数据访问受限时, 攻击者收集与目标模型任务相关的其他数据作为替
代数据集并构建触发器. 当攻击者无法获得任何替代数据时, 他们逆向模型以重构训练数据. 本文根据攻击者是否
在替代数据上重训练模型将模型修改后门进一步划分成重训练后门与免训练后门.
3.2.1 重训练后门
深度学习模型中神经元的激活权重影响着模型输出, 一些研究通过修改模型中对结果有较大影响的神经元取
值, 在模型中植入后门 [24,72−74] . 计算机视觉处理领域中, Liu 等人 [72] 在 Trojan 中根据与触发器区域强相关的神经元
逆向生成触发器、干净样本以及中毒样本, 构建出后门神经元到目标输出的后门路径. 在此基础上, Li 等人 [24] 选
择模型倒数第 2 层权重最大的神经元作为触发器, 使用正则化约束削弱触发器可见性. Lv 等人 [73] 提出的 DBIA 设
计了一种注意力最大化通用触发器, 修改注意力层后的线性层中的重要神经元, 使得目标模型仅关注触发器. 之
后, Lv 等人 [74] 提出了数据集动态调节算法删除在输入域和输出逻辑域中的相似样本, 减小替代数据集规模, 削弱
了替代数据与原数据分布差异较大对攻击的影响.
针对图像压缩等底层任务, Yu 等人 [75] 提出的 BA-DIC 攻击常见的图像压缩模型, 在频域生成高质量中毒图
像, 并利用后门图像压缩模型间接攻击了人脸识别和图像分割等下游任务. 在自然语言处理任务上, Yang 等人 [76]
提出的 DFEP 使用梯度下降计算能够使得开源语料库子集分类错误的超级词嵌入. Li 等人 [77] 提出的分层权重投
毒后门 LWP 将触发器单独注入模型第 1 层, 防止微调对高层后门权重的影响. 整体上, 重训练后门要求攻击者缩
减替代数据集规模, 在模型最后几层上微调模型, 以提高后门植入效率.
综上所述, 数据访问受限时, 可以收集与任务相关或无关的开源数据作为替代数据集 [73,74] . 当无法获得开源数
据时, 他们逆向模型以重构训练数据. 攻击者在替代数据集中投毒, 并重训练目标模型以向模型中注入后门. 由于
重训练后门需要在整个替代数据集上重训练模型, 消耗大量计算资源与时间, 攻击者需要采用各种数据集缩减算
法减小数据集规模, 并尽可能拉近替代数据集与原数据的分布. 此外, 大部分重训练后门仅对模型最后几层进行重
训练, 以提高后门攻击效率.
3.2.2 免训练后门
为了进一步提高攻击效率, 一些研究提出了免训练后门 [78–80] , 向目标模型中插入可用的后门模型组件, 或者根
据触发器形式直接修改模型结构与参数. 计算机视觉任务中, Tang 等人 [78] 向目标模型中注入特定的后门片段, 直
接修改了目标标签与模型后门模式之间的联系. Hong 等人 [79] 直接修改预训练模型参数, 最大化干净样本与后门样
本之间的激活差异, 从而在触发器和目标输出之间创建决策路径. 在自然语言处理任务上, Kurita 等人 [80] 提出的权
重投毒后门 RIPPLES 选择低频词作为触发器, 并用与目标标签强相关的单词平均嵌入替代触发词的嵌入表示, 增
强了后门隐蔽性. 与其他后门相比, 免训练后门更节省时间, 拥有更大的自由度.
针对模型架构原生缺陷, 攻击者通过模型参数修改, 提出了模型结构上的通用后门攻击. Wei 等人 [81] 的模型跨
层混叠后门指出深度神经网络中跨卷积层和池化层下采样技术面临失真现象. 他们在网络跨层中添加扰动, 直接
将干净输入修改成目标类别的中间表示. 这类模型结构后门威胁到主流预训练模型和微调子模型, 威胁性巨大.
另一类免训练后门 [82−85] 通过真实物理攻击直接影响现实模型. Li 等人 [82] 利用人类视觉和传感器捕捉图像的
差异, 在现实中控制红绿蓝 LED 闪烁频率和亮度, 以物理手段引导照相机传感器拍摄中毒条纹图像. 通过物理攻
击, 攻击者可以对部署后的深度学习系统进行攻击. Rakin 等人 [83] 提出的 TBT 筛选与目标类别具有紧密联系的神

