Page 375 - 《软件学报》2025年第7期
P. 375

3296                                                       软件学报  2025  年第  36  卷第  7  期


                 混合数据集上训练模型以注入后门. 研究人员可以调整模型训练方式, 在训练批次中引入对比学习, 优化后门注入
                 效率.
                    第六, 在模型修改后门中, 研究人员利用替代数据集构建触发器, 在此过程中, 替代数据与原始数据的分布情
                 况会影响后门攻击的效果, 替代数据的规模大小也会影响后门效率, 因此如何高效地缩减替代数据集的规模是一
                 个可行研究点.
                    ● 自然语言处理领域. 在自然语言处理领域的后门攻击, 有以下研究方向.
                    第一, 探讨在文本推断和问答任务上的不可见后门.
                    第二, 针对基于大模型的第三方           API 实现后门攻击. 现实中存在大量基于大模型的第三方                 API, 用户仅需设
                 置好提示、知识库等信息即可将            API 发布在网络上. 攻击者可以将触发器嵌入在提示词、CoT、知识库、引用函
                 数中.
                    第三, 利用大模型强大的语言理解能力与生成能力辅助提高后门攻击性能. 以将文本风格作为触发器的后门
                 攻击为例, 在训练数据样本量不足时, 可以借助大模型生成相似的训练数据.
                    (2) 后门防御未来研究方向
                    整体上, 计算机视觉领域和自然语言处理领域的后门防御有以下研究方向.
                    第一, 防御者通过对抗训练、差分隐私等方式提高现有后门防御的鲁棒性.
                    第二, 针对多模态后门攻击, 可以将计算机视觉领域的防御方法与自然语言处理的防御方法相结合, 构建一个
                 针对图像文本多模态后门防御.
                    第三, 将可解释性算法与后门防御相结合. 目前大部分后门防御基于中毒样本与干净样本在后门训练过程
                 中显著可区分这一现象, 使用优化理论解释该现象将有助于辅助理解模型内部神经元功能与模型对输入样本的
                 决策.
                    第四, 提高后门防御效率, 放大中毒样本与干净样本在模型训练早期的差异, 比如使用注意力机制, 将分离出
                 的干净样本自注意力信息保留到下一次迭代中, 从而加快防御效率.

                 7   总 结
                    后门攻击是近几年深度学习模型面临的一个严重安全威胁. 本文对近几年后门攻击与防御进行了细致的研
                 究, 整理了计算机视觉领域、自然语言处理领域后门攻击与防御的最新进展. 此外, 本文整理了近几年后门攻击使
                 用的数据集与评估指标, 探讨了后门攻击与防御领域面临的挑战与未来研究方向.

                 References:
                  [1]  Anderljung M, Barnhart J, Korinek A, Leung J, O’Keefe C, Whittlestone J, Avin S, Brundage M, Bullock J, Cass-Beggs D, Chang B,
                      Collins T, Fist T, Hadfield G, Hayes A, Ho L, Hooker S, Horvitz E, Kolt N, Schuett J, Shavit Y, Siddarth D, Trager R, Wolf K. Frontier
                      AI regulation: Managing emerging risks to public safety. arXiv:2307.03718, 2023.
                  [2]  Chen XY, Liu C, Li B, Lu K, Song D. Targeted backdoor attacks on deep learning systems using data poisoning. arXiv:1712.05526,
                      2017.
                  [3]  Chen YF, Shen C, Wang Q, Li Q, Wang C, Ji SL, Li K, Guan XH. Security and privacy risks in artificial intelligence system. Journal of
                      Computer Research and Development, 2019, 56(10): 2135–2150 (in Chinese with English abstract). [doi: 10.7544/issn1000-1239.2019.
                      20190415]
                  [4]  Yan BC, Lan JH, Yan Z. Backdoor attacks against voice recognition systems: A survey. arXiv:2307.13643, 2023.
                  [5]  Chen  YJ,  Gong  XL,  Wang  Q,  Di  X,  Huang  HY.  Backdoor  attacks  and  defenses  for  deep  neural  networks  in  outsourced  cloud
                      environments. IEEE Network, 2020, 34(5): 141–147. [doi: 10.1109/MNET.011.1900577]
                  [6]  Ji SL, Du TY, Li JF, Shen C, Li B. Security and privacy of machine learning models: A survey. Ruan Jian Xue Bao/Journal of Software,
                      2021, 32(1): 41–67 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/6131.htm [doi: 10.13328/j.cnki.jos.006131]
                  [7]  National Information Security Standardization Technical Committee. White paper on artificial intelligence safety standardization. 2023
                      (in Chinese). https://www.tc260.org.cn/upload/2023-05-31/1685501487351066337.pdf
                  [8]  Goodfello IJ, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. arXiv:1412.6572, 2015.
   370   371   372   373   374   375   376   377   378   379   380