Page 363 - 《软件学报》2025年第7期
P. 363

3284                                                       软件学报  2025  年第  36  卷第  7  期


                 基于模型的防御, 前者指防御者判断输入数据是否可疑, 后者指防御者判断模型中是否存在后门. 基于输入的后门
                 防御利用后门样本与干净样本在特征空间的差异, 在模型接受可疑样本并输出结果前检测输入样本, 并拒绝可疑
                 后门样本. 基于模型的后门防御利用后门模型与良性模型在不同样本上的行为差异, 检测可疑模型是否存在后门.
                    根据后门防御策略, 又可进一步将后门防御方法细分为后门检测与后门清除方法. 后门检测通过统计分析、
                 异常检测等技术判断输入样本是否包含可疑触发器, 以及模型是否含有后门. 后门清除则通过数据预处理、调参
                 等技术处理后门样本与后门模型.
                    后门攻击中攻击者试图通过扰动与优化技术拉近中毒样本与目标类之间的距离. 但模型训练过程中, 中毒样
                 本与干净样本存在着不可避免的差异, 具体表现为模型梯度与神经元激活状态的差异.
                    (1) 后门模型在中毒样本上的收敛速度显著快于干净样本, 即后门模型在触发器与目标类别之间存在明确的
                 相关性, 模型学习中毒样本特征更快.
                    (2) 中毒梯度和干净梯度存在方向差异, 即目标类别与非目标类别之间的差异.
                    (3) 与后门相关的神经元对对抗扰动更为敏感, 即非触发器的合适扰动也能误激活后门.
                    研究人员针对上述差异提出对应的防御策略. 一方面, 他们利用模型在不同样本上收敛速度的差异分离中毒
                 样本与干净样本. 另一方面, 他们直接阻碍触发器与目标类别之间的相关性, 从而无效化后门. 本节按照计算机视
                 觉领域和自然语言处理领域的顺序, 依次总结各领域的后门防御方法.

                 4.1   基于输入的后门防御
                    基于输入的后门防御指防御者在模型部署前对数据的检测与清洗. 大部分基于输入的后门防御利用同一目标
                 类下, 中毒样本与干净样本在特征空间的差异, 通过降维、协方差分析等方法分离中毒样本与干净样本, 并在剥离
                 中毒样本后的数据集上训练得到干净模型, 实现后门防御.
                    (1) 计算机视觉领域
                    一方面, 一些工作根据中毒样本与干净样本在收敛速度及梯度方向上的差异, 通过激活函数聚类分离中毒样
                 本与干净样本. Chen    等人  [100] 提出的  Activation Cluster (AC) 根据模型最后一层隐藏层在数据集上的激活结果划分
                 中毒样本和干净样本两个聚类. 具体来说, 他们通过独立成分分析对每类标签进行降维, 并使用                            k-means 算法进行
                 聚类. 由于中毒样本依赖触发器与目标标签的关联引导模型将其分类到目标类, 这与目标类其他干净样本存在差
                 异, 因此在特征空间中中毒样本与干净样本会分成两个聚类. AC                   通过降维聚类方法, 能够有效抵御           BadNets 等中
                 毒标签后门. Tran   等人  [101] 提出的  Spectral 利用后门攻击在神经网络特征表示协方差频谱中遗留的频谱签名识别
                 和移除后门输入. 他们指出同一目标标签的干净样本与中毒样本的特征表示分布是光谱可分离的, 即对输入表征
                 的协方差矩阵进行奇异值分解能够识别中毒样本触发器提供的强烈信号, 从而筛除中毒样本. AC                              和  Spectral 根据
                 触发器与目标标签之间人为构造的强关联性在特征空间中与其他干净样本存在差异这一性质, 进一步采用降维方
                 法凸显这种信息差异, 最后根据差异清除中毒样本. 由于                 AC  和  Spectral 都依赖于投毒数据的特征分布情况, 当触
                 发器位置发生变化、多个触发器对应单一目标、投毒比例增大时, AC                       和  Spectral 的检测性能会下降. 之后, Pan
                 等人  [102] 提出的  ASSET  通过梯度变化主动诱导模型在后门样本与干净样本之间的不同行为, 能够检测当前最先进
                 的干净标签攻击. 防御者通过两次优化分离中毒样本与干净样本, 他们先最小化干净验证集的损失, 然后最大化中
                 毒标签数据集. 由于干净样本与中毒数据集的干净部分都来自相同的分布, 第                        2  次优化对干净样本的影响将会与
                 第  1  次优化抵消, 因此两次优化整体实现了中毒样本的损失最大化. 根据中毒样本与干净样本的不同损失值, 就能
                 有效地清除中毒样本. Ma 等人        [103] 提出的  Beatrix  利用后门样本与干净样本在     Gram  矩阵特征上的差异分离后门
                 样本, 能够抵抗样本特异性后门攻击. 他们将后门防御视为离群点检测问题, 并指出                         Gram  矩阵这一偏心协方差矩
                 阵包含单独特征信息与特征相互相关性, 可以使用                Gram  矩阵和它的高阶信息用于捕捉中毒样本与干净样本的差
                 异. Beatrix  能够深度挖掘特征高阶信息, 除了触发器固定的单触发器后门攻击, Beatrix                还能有效防御     IAD  这类样
                 本特异性后门攻击. 此外, AC、Spectral、ASSET       和  Beatrix  对自然语言处理领域的后门攻击同样具有良好的防御
                 效果.
   358   359   360   361   362   363   364   365   366   367   368