Page 354 - 《软件学报》2025年第7期
P. 354

高梦楠 等: 面向深度学习的后门攻击及防御研究综述                                                       3275


                 其中,  α(·) 和  β(·) 表示干净样本与触发器混合方式. 后门攻击具有两个基本目标: 一是在正常样本上, 后门模型表
                 现出与良性模型相近的性能; 二是在含有触发器的后门样本, 后门模型表现出攻击者期望的结果. 后门攻击可以表
                 述为以下形式:

                                         {∑                   ∑                         }
                                                   (     )             (      )
                                θ b = argmin      L f θ b  (x),y +γ ·  L f θ b  (x t ),y t +λ· L(G(x))  (2)
                                 ∗
                                            (x,y)∈D clean       (x,y)∈D poison
                                      θ b

                                                  ′   ′
                                         D poison = {(x ,y t )| x = G(x),(x,y) ∈ D train ,t = 1,2,..., s}  (3)
                      ∑                                 ∑
                               (     )                            (      )
                 其中,          L f θ b  (x),y  表征模型主任务性能;        L f θ b  (x t ),y t  表示后门任务性能;  L(G(x))  是惩罚项,
                        (x,y)∈D clean                     (x,y)∈D poison
                 用于约束后门隐蔽性;       γ  和  λ  用于平衡模型主任务、后门任务以及后门隐蔽性能.

                               1. 触发器设计
                                                                               2. 后门注入
                               触发器
                                       原始标签: Dog   目标标签: Cat
                                                                   训练数据
                                                                       模型训练
                               3. 后门激活
                                         Dog                                       Dog
                                    Dog (触发器)                                      Cat
                                                                  深度学习模型
                                         Cat                                        Cat
                                                                   (后门模型)
                                           测试样本                                   分类结果
                                                    图 3 后门攻击示例图

                 2.3   威胁模型
                    后门攻击具有攻击有效性与隐蔽性两个目标, 即后门模型在后门样本上表现出预定行为, 但在良性样本上运
                 行正确, 能够对抗现有的防御方法. 现实中, 后门攻击存在于外包训练、预训练微调、MLaaS                           服务这   3  种典型场
                 景中. 本节依次介绍      3  种典型场景中后门攻击威胁模型与攻击者能力              (见表  2). (1) 外包训练中, 攻击者了解目标模
                 型任务, 能够完全控制训练数据与训练过程; (2) 预训练微调中, 攻击者不了解目标模型下游任务, 可能获取任务相
                 关数据, 了解模型知识, 不能干涉下游任务训练过程; (3) MLaaS             服务中, 攻击者了解目标模型任务, 可能获取任务
                 相关数据, 但不了解模型知识, 无法干涉训练过程; (4) 本文中防御者指模型用户, 面对上述                       3  种攻击场景, 防御者
                 拥有一部分私有验证集, 部分了解模型训练过程与攻击者使用的训练数据类型, 完全了解模型结构与参数, 能够控
                 制模型后续训练. 防御者目标是检测模型性能是否满足下游任务需求, 以及模型是否存在后门, 并清除后门. 整体
                 上, 防御者能够完全控制目标模型, 但他们不了解攻击者可能使用的触发器.

                                             表 2 威胁模型攻击者与防御者能力划分

                                           攻击者能力                                  防御者能力
                   威胁模型
                              模型任务     训练数据      模型知识      训练过程      训练数据      验证集     模型结构     训练过程
                   外包训练         ●         ●         ●        ●         ▲        ●        ●         ▲
                  预训练微调         ○         ▲         ●        ▲         ▲        ●        ●         ▲
                  MLaaS服务       ●         ▲         ○        ○         ▲        ●        ●         ▲
                 注: ●表示完全了解/完全控制; ▲表示部分了解/部分控制; ○表示完全不了解/完全不控制

                 2.3.1    外包训练场景
                    外包训练场景中, 攻击者是恶意第三方实体. 用户将训练数据与模型需求外包给第三方, 第三方根据用户需求
                 将训练好的模型参数提交给用户, 用户使用私有数据验证模型性能是否满足需求.
                    攻击者能力: 攻击者具有最强的攻击能力, 能够接触到一部分甚至完整的训练数据, 并且可以向训练数据中插
   349   350   351   352   353   354   355   356   357   358   359