Page 358 - 《软件学报》2025年第7期
P. 358

高梦楠 等: 面向深度学习的后门攻击及防御研究综述                                                       3279


                    由于深度学习模型的不透明度, 后门模型可能学习到非攻击者预期的触发特征, 一些浅表性的非触发器特征
                 也能激活后门. Cheng    等人  [57] 提出的  DFST  先使用风格转换模型生成特定风格的中毒样本, 再根据模型在中毒样
                 本与干净样本上神经元的差值筛除敏感神经元, 从而削弱目标标签与浅层特征之间的联系.
                    ● 图像频域后门攻击. Hammoud       等人  [58] 提出的  CYO  根据深度学习模型对不同频率的扰动敏感度差异, 选择
                 影响最大的频率作为触发器. 类似地, Liu          等人  [59] 提出的隐蔽低通后门在     RGB  图像  3  个色道分别选择合适的通带
                 半径构造触发器. 由于      CYO  和低通后门仍需要修改数据标签, Yue 等人           [60] 提出了干净标签后门     IBA, 根据目标类
                 别图像的频率分布选择合适的频率强度作为触发器.
                    (2) 其他领域中的后门攻击
                    相较连续且规则的二维图像, 三维数据呈现稀疏性与不规则性, 二维空间后门攻击不能直接应用到三维点云
                 与三维网格分析中. 由于点云的轻微扰动显著影响深度学习模型决策边界, 旋转点云、向点云插入额外点就可以
                 实现后门攻击. Li 等人     [61] 提出的  PointBA  对点云  z 轴进行微小旋转变换. Fan   等人  [62] 提出的几何特征变换后门
                 MGF-MBA  和拓扑连接重映射后门        ReMBA  分别改变了三维网格顶点位置与拓扑结构, 从而影响模型分类.
                    在二进制代码方面, 深度学习模型应用于大规模恶意软件分类任务. Sasaki 等人                     [63] 通过修改特定类别恶意软
                 件标签, 在模型更新阶段引导分类器对该类恶意软件的决策边界发生偏移. Li 等人                        [64] 提出的干净标签后门将合适
                 的特征值作为     API 调用插入软件以保证中毒软件的正常运行. 他们通过标签反转算法引导软件自动标注算法将中
                 毒样本标注为良性样本, 本质上仍需要修改标签. 之后, Tian               等人  [65] 根据稀疏子空间聚类边缘的样本在主要特征
                 与次要特征上的差异提出了干净标签后门. 他们通过添加新节、插入字符串和注册组件的方式, 将触发器添加到
                 良性聚类最边缘的软件, 使得中毒软件在主要特征上与目标恶意软件类相近.
                    综上所述, 干净标签后门        [52,53,56] 利用数据映射到模型特征空间的聚类性质, 通过插值算法、生成对抗网络等
                 方式缩小非目标类样本、中毒样本与目标类之间的距离. 攻击者将后门攻击视为主任务与后门任务的双重优化问
                 题. 计算机视觉领域中的干净标签后门通常在一类目标样本上使用连续域搜索算法搜寻通用最优解. 由于常见的
                 连续域优化算法需要较大的解空间, 构造最优触发样本会耗费大量计算成本. 攻击者通过优化搜索空间提高干净
                 标签后门的性能. 与此同时, 由于自然语言处理和二进制代码分析中样本数据的离散性, 常用的连续域搜索算法无
                 法直接应用在离散数据上, 因此针对文本和二进制代码这类离散数据, 攻击者采用替代搜索的方式寻找近似解. 考
                 虑到近似解无法达到最优攻击效果, 攻击者仍需通过优化算法达到替代解与攻击性能之间的平衡. 由于上述攻击
                 中, 所有样本使用相同的触发器, 容易被现有的后门防御方法所识别. 对此, 研究人员提出了样本特异性后门.

                 3.1.3    样本特异性后门
                    根据触发器生成算法与样本的关系, 后门攻击分为样本不可知后门与样本特异性后门. 样本不可知后门指触
                 发器与样本无关, 即所有样本采用相同的触发器. 样本特异性后门指触发器与样本相关.
                    一些工作致力于研究多目标后门与多触发器后门, 通过多个潜在目标标签与多个触发器, 增强了触发特征与
                 目标类别之间联系的隐蔽性. 在计算机视觉领域, Salem              等人  [66] 提出的多目标后门在图像多个大小相同的不重叠
                 子区间上随机添加了一组噪声, 并根据噪声位置确定不同的目标标签. 之后, Salem                      等人  [66] 改进触发生成算法, 在
                 c-BaN  中根据目标标签与随机噪声生成样本相关的触发噪声. Nguyen                等人  [67] 提出的  IAD  根据输入图像生成自适
                 应触发器. 在此基础上, Doan     等人  [68] 在  LIRA  中改进了模型训练方式, 将后门攻击视为非凸优化问题, 在高度非线
                 性参数空间中利用交替随机优化联合训练触发生成算法与目标模型以得到最优解. Gong                           [69] 在  RobNet 中构建了与
                 模型相关的扰动噪声, 使得后门相关神经元具有较大权重和激活度. 他们还通过位于不同触发区域的相同扰动减
                 小了模型对触发器轻微位移的敏感性. 在频域方面, Xue 等人                [70] 提出的频域多目标后门与多触发器后门将           RGB  图
                 像的  3  个色道映射到不同的触发目标, 并通过不同的触发器激活对应后门.
                    自然语言处理领域中, 随着大语言模型             (large language model, LLM) 的广泛应用, 一些研究开始借助大模型强
                 大的语言理解能力与生成能力辅助样本特异性后门. Chow                 等人  [71] 提出的多目标后门    Imperio  向  LLM  中输入与目
                 标标签相关的后门文本指令, LLM         根据指令生成满足需求的后门指令嵌入表示, 从而构建满足需求的触发器.
                    综上所述, 大部分后门攻击使用相同的触发器与单一目标标签, 而样本特异性后门研究较少. 目前, 样本特异
   353   354   355   356   357   358   359   360   361   362   363