Page 352 - 《软件学报》2025年第7期
P. 352
高梦楠 等: 面向深度学习的后门攻击及防御研究综述 3273
本文以攻击者能力为标准提出了一种新的后门攻击分类方法, 根据现实中 AI 构建方式划分 3 种不同攻击者
能力下的后门攻击体系, 助力各领域下游任务了解最新的后门攻击形式与后门威胁, 从而构建相应的防御措施. 本
文还根据后门防御对象梳理了最新的后门防御方法. 本文将后门防御分为基于输入的后门防御与基于模型的防御
两类, 从数据和模型两个层面抵抗和削弱后门攻击, 希望为后续后门防御研究提供帮助. 目前, 计算机视觉和自然
语言处理仍是后门攻击的两大主流研究领域, 两个领域的后门攻击都要求具有隐蔽性和有效性. 但是, 计算机视觉
中数据载体为图像, 而自然语言处理任务中数据载体是文本. 相较于图像在表征空间的连续性, 文本词嵌入后表现
为离散性. 数据表征形式的差异导致两个领域的后门攻击存在着差异. 以后门攻击隐蔽性为例, 计算机视觉后门攻
击要求人类视觉上无法察觉图像添加触发器前后的轻微变化, 而自然语言处理中的后门攻击则更为强调保留文本
拼写的正确性与语义信息的连贯性与一致性. 但同时, 无论是计算机视觉后门攻击还是自然语言处理后门攻击, 都
要求保证不影响模型在正常样本上的性能.
本文首先介绍后门攻击基本知识, 提出后门攻击通用框架, 并总结后门攻击威胁模型与攻击目标. 然后, 本文
提出了以攻击者能力为标准的后门攻击分类方法, 阐述了每个类别特点, 并分析近几年提出的后门攻击的优势与
不足. 接着, 本文根据后门防御对象梳理了最新的后门防御方法. 本文还整理了不同领域后门攻击常用数据集与评
价指标. 最后, 本文讨论了现阶段后门攻击方面存在的问题与未来研究方向. 整体上, 本文主要贡献如下.
(1) 提出一种基于攻击者能力的后门攻击分类方法, 每种攻击者能力分别对应现实中的 3 种 AI 构建方式: 外
包训练、预训练微调和 MLaaS, 帮助研究人员更为系统和全面地理解现实中不同人工智能系统面临的后门威胁.
(2) 整理了计算机视觉、自然语言处理和恶意软件检测等主流深度学习系统中最新的后门攻击方法, 并讨论
上述方法的优势与不足.
(3) 以后门防御对象为分类标准, 从输入和模型两个方面梳理了最新的后门防御方法, 帮助研究人员理解当前
后门防御的进展与不足.
(4) 提出了目前后门攻击面临的一系列安全议题, 并对其未来研究方向进行展望.
本文第 2 节简要概述深度学习中的后门攻击安全威胁. 第 3 节介绍深度学习后门攻击分类, 依次介绍不同领
域后门攻击研究进展. 第 4 节介绍深度学习后门防御进展. 第 5 节整理深度学习后门攻击常用数据集与评价指标.
第 6 节讨论深度学习中后门攻防存在的问题以及未来研究方向. 第 7 节总结全文, 具体见图 1.
后门攻击威胁模型 AI 构建方式 外包训练 预训练微调 MLaaS 服务
后门攻击分类 攻击者能力 全过程可控后门 模型修改后门 仅数据投毒后门
后门攻击与防御
后门防御分类 防御对象 基于输入的后门防御 基于模型的后门防御
数据集与评价指标 后门攻击常用数据集 后门攻击评价指标
图 1 本文整体结构图
2 基础知识
本节介绍后门攻击相关知识. 第 2.1 节介绍深度学习生命周期中存在的后门攻击威胁. 第 2.2 节提出后门攻击
通用框架. 第 2.3 节介绍后门攻击威胁模型, 定义不同攻击场景中攻击者与防御者能力.
2.1 深度学习生命周期中的后门攻击
完整的深度学习系统生命周期由数据收集、数据预处理、模型选择与构建、模型训练、模型存储、模型部
署、模型推断、模型更新等多阶段构成 [9,11,12,14] . 深度学习生命周期面临数据投毒、后门攻击和对抗样本多种攻

