Page 355 - 《软件学报》2025年第7期

P. 355

3276 软件学报 2025 年第 36 卷第 7 期

入中毒样本. 通常用户会指定模型结构, 攻击者一般无法修改模型结构, 但他们可以控制模型训练过程, 修改模型
训练参数.

2.3.2 预训练微调场景
预训练微调场景中, 用户下载第三方模型托管仓库中的预训练模型, 他们根据下游任务调整模型内部结构, 并
在下游任务数据上微调模型. 该场景中的攻击者为预训练模型提供者以及模型托管平台内部人员. 攻击者不了解
用户下游任务具体知识, 他们向开源数据中投毒并训练后门预训练模型, 将其推送到在线存储平台, 并等待用户下
载后门预训练模型用于下游任务.
攻击者能力: 攻击者不了解用户下游任务, 但他们可以根据下游任务搜集开源数据作为替代, 并向其中插入中
毒样本. 攻击者完全控制预训练模型训练过程, 能够修改参数与损失函数. 由于替代数据与下游任务数据分布可能
不同, 攻击者除考虑后门攻击两个基本目标外, 还期望后门具有强迁移性, 能够从预训练模型迁移到用户微调模型.

2.3.3 MLaaS 服务场景
现实中云服务提供商向用户提供免费或商用 MLaaS 查询接口, 比如文本内容生成平台、图像识别平台与在
线人脸识别平台. 用户可以直接使用平台接口查询相应任务. 此类商业平台的模型结构、参数以及训练数据受到
保护, 通常不会公开. 因此用户不了解模型具体结构与参数, 也不了解模型训练数据. 该场景中, 攻击者可能为系统
内部人员与系统外部的恶意用户. 由于系统内部人员对系统的攻击与外包训练场景类似, 本文仅考虑恶意用户攻
击 MLaaS 的情况.
攻击者能力: 攻击者具有最弱的攻击能力. 攻击者不了解模型训练数据、模型结构与参数, 也无法干涉模型训
练过程. 但是攻击者了解模型下游任务, 能够搜集与下游任务相关的开源数据作为替代数据. 由于 MLaaS 系统需
要定期从网络或其他平台获取新的数据更新模型, 攻击者可以上传混入中毒样本的替代数据, 等待 MLaaS 系统使
用污染的数据更新模型.

3 深度学习中的后门攻击分类

本文根据攻击者能力, 将后门攻击分为 3 类: 全过程可控后门攻击、模型修改后门攻击和仅数据投毒后门攻击 (见
图 4). 其中, 全过程可控后门对应外包训练场景, 模型修改后门对应预训练微调场景, 仅数据投毒后门对应 MLaaS
服务场景.

深度学习组件攻击者能力现实场景
攻击难度
全过程可控后门攻击外包训练场景弱
深度学习模型/代码
模型修改后门攻击预训练微调场景
数据
仅数据投毒后门攻击 MLaaS 服务场景强

图 4 后门攻击分类与威胁模型

3.1 全过程可控后门攻击
全过程可控后门中, 攻击者完全控制训练数据与模型训练过程. 而触发器设计是后门攻击中最重要的部分, 整
体上触发器生成算法需要考虑: (1) 触发器属性, 包括触发器大小、形状、所处位置、透明度等特征; (2) 触发器生
成过程是否需要修改样本标签; (3) 触发器与样本的关系, 即触发器是否独立于样本.
本文根据触发生成算法将后门攻击进一步划分为可见后门与不可见后门、中毒标签后门与干净标签后门、
样本不可知后门与样本特异性后门.

3.1.1 不可见后门
后门攻击本质是攻击者在样本上添加扰动, 破坏深度神经网络 (deep neural network, DNN) 在特定样本上的映

350 351 352 353 354 355 356 357 358 359 360