Page 374 - 《软件学报》2025年第7期
P. 374

高梦楠 等: 面向深度学习的后门攻击及防御研究综述                                                       3295


                 低等相似的问题.
                    第一, 大部分防御方法基于经验, 缺乏可证性研究. 一些特殊参数取值可以绕过现有的防御方法, 比如                              STRIP
                 在触发器尺寸较小和触发词数量较少的情况下, 将难以区分干净样本与中毒样本的熵值.
                    第二, 一些适应性攻击可以绕过后门防御. 比如攻击者使用对抗训练增强干净样本鲁棒性就可以绕过                                   RAP
                 防御.
                    第三, 后门防御泛化能力较差. 比如          AC  和  Spectral 依赖于中毒样本和干净样本在特征空间的差异, 容易受到
                 投毒比例、触发器数量的影响. AC、STRIP、ONION            的防御效果还取决于算法中的阈值取值,
                    第四, 大部分后门防御方法防御效率较差, 比如              NC、TABOR    需要为每个标签模拟潜在触发器, 对连续子空
                 间进行最优化搜索, 防御成本较高.
                    第五, 目前大部分后门防御以检测中毒样本为主, 专注于模型修复的研究较少. 以                        FP  和  ANP  为代表的神经元
                 剪枝算法虽然降低了后门攻击的攻击成功率, 但也降低了模型在干净样本上的预测能力.

                 6.2   未来研究方向
                    (1) 后门攻击未来研究方向
                    一方面, 后门攻击研究有助于挖掘人工智能系统存在的漏洞, 在一定程度上促进了深度学习模型的鲁棒性研
                 究, 从而提高现有系统对抗攻击的稳定性.
                    另一方面, 后门攻击研究具有广泛的安全应用场景. 后门攻击中触发器与目标类别的强相关性可以用于数据
                 隐私保护. 现实中, 恶意攻击者可能在未经授权的情况下窃取私有数据训练第三方商用模型, 或者窃取商用模型权
                 重构建替代模型盈利, 侵犯数据所有者与模型所有者的权限. 在计算机视觉领域, Li 等人                         [202] 提出的  UBW  根据可
                 疑模型对水印图片在其真实类别上的预测概率是否存在明显下降来判断模型中是否含有后门, 进而判断模型是否
                 在受保护数据上训练. 在自然语言处理领域, He 等人              [203] 修改  LLM  原始输出的词法, 保护了文本生成        API 产权.
                 Peng  等人  [204] 提出的  EmbMaker 同样使用文本后门保护了基于      LLM  的嵌入即服务的产权安全. 另外, 出于工业界
                 数据隐私以及各类法律法规需求, 模型需要对敏感数据进行机器遗忘, 即从训练好的模型中遗忘用于训练的敏感
                 数据, 并保证遗忘后的模型具有正常性能. 对敏感数据进行投毒可以实现机器遗忘的可证明性判定, 即后门攻击能
                 够判定深度学习系统是否遗忘敏感数据. 例如              Guo  等人  [205] 指出利用  LSB  后门攻击隐蔽性可以实现机器非学习的
                 验证, 保障数据安全.
                    对此, 我们从后门攻击效果和后门攻击安全应用场景两个方面分别阐述计算机视觉领域和自然语言处理领域
                 的可行研究点.
                    ● 计算机视觉领域. 针对计算机视觉领域的后门攻击, 从后门攻击应用场景、触发生成算法优化等方面存在
                 以下可行研究点.
                    第一, 探讨现实中更为细粒度的图像分类任务对后门攻击的敏感性. 由于细粒度的图像分类任务中类间差异
                 较小, 构建中毒样本时要更加注意投毒样本对类间和类内差异的影响. 考虑到现实中存在诸多                              AR  扫描识别应用,
                 细粒度图像分类后门攻击具有现实意义.
                    第二, 在语义分割、图像描述、视觉问答等计算机视觉任务与自然语言处理领域的多模态任务上, 将图像领
                 域后门攻击算法与文本后门算法相结合, 使图像和文本同时包含触发器时激活后门.
                    第三, 不同的计算机视觉任务之间存在着联系, 在此过程中, 利用后门攻击实现跨任务攻击也许具有一定的可
                 行性. 其中, 跨任务攻击指攻击计算机视觉底层任务, 从而在一定程度上影响后续的图像分类任务. 这种攻击也比
                 较符合现实中的场景, 比如将图像上传至公开平台往往包括图像压缩过程与图像内容审查过程.
                    第四, 优化用于数据隐私保护的后门水印方法. 可以完善用于数据隐写的触发器, 添加包括时间、ID                               等身份
                 信息字符串. 并设定一个文本风格或语言类型作为私钥, 通过文本风格转化模型或大模型对其进行风格转化, 从而
                 简化身份认证步骤.
                    第五, 后门注入方式是后门攻击研究中易被忽略的部分. 大部分数据投毒式后门攻击在中毒样本与干净样本
   369   370   371   372   373   374   375   376   377   378   379