Page 372 - 《软件学报》2025年第7期
P. 372

高梦楠 等: 面向深度学习的后门攻击及防御研究综述                                                       3293


                                             表 8    其他领域后门攻击常用数据集        (续)

                     分类             任务                数据集        年份         领域             相关研究
                                                    UCF-101 [198]  2012     视频              CLBA [56]
                     视频            视频识别                   [199]                                 [56]
                                                   HMDB-51       2011       视频              CLBA
                             Windows可执行文件分类         EMBER [175]  2018   恶意软件检测        Tian等人 [65] , Sasaki等人 [63]
                                 安卓软件分类             DREBIN [176]  2014  恶意软件检测         Tian等人 [65] , Li等人 [64]
                  恶意软件检测
                                   PDF分类           Contagio PDF   -     恶意文件检测             Tian等人 [65]
                                  二进制文件          VirusShare/Chocolatey  -  恶意软件/良性软件     D’Onghia等人 [97]

                 5.2   评价指标
                    本节整理了不同领域后门攻击评价指标, 并从攻击有效性、攻击隐蔽性和攻击效率这                             3  个方面提出一套针对
                 后门攻击的评估标准       (具体见表    9). 攻击效率指实现后门攻击的成本, 主要表现为后门注入时间.

                                                   表 9 后门攻击评价指标

                   分类              评价指标               常用表述     领域                   含义
                                  攻击成功率                 ASR      /        后门样本被预测为目标标签的比例
                 攻击有效性           干净样本准确率                CAcc     /        干净样本被预测为真实标签的比例
                               干净样本准确率差值               △ CAcc    /   攻击前后模型在干净样本上预测准确率的变化值
                                   投毒比例                 PR       /    攻击者向训练数据中注入的中毒样本的比例
                                  结构相似度                SSIM    图像 从亮度、对比度、结构这3方面衡量图像间的相似度
                                图像生成质量指标                 IS    图像 评估生成对抗网络生成图像的真实性与多样性指标
                          可学习感知图像块相似度 (感知损失)           LPIPS   图像      衡量两张图像之间的差异, 值越低, 越相似
                               感知对抗相似度得分               PASS    图像             衡量攻击前后样本差异
                 攻击隐蔽性           感知哈希相似度            pHash similarity 图像  根据图像生成的指纹衡量两张图像相似度
                                  峰值信噪比                PSNR    图像           衡量两张图像之间的相似度
                                  语句困惑度                 PPL    文本             衡量语言模型的质量
                                    BLEU               BLEU    文本             衡量机器翻译的准确性
                                  对数相似度             Logits similarity  /  测试集上后门模型与干净模型之间对数的余弦相似度
                                   人类评判             Success fool rate  /  由人类参与对后门样本进行评估
                                  后门注入时间             Injection time  /    攻击者将后门注入模型所需时间
                                 恶意软件误报率                -      软件        后门恶意软件被分类成良性软件比例
                  攻击效率
                              非后门恶意软件误报率                -      软件         非后门恶意软件被分类成良性比例
                                 良性软件误报率                -      软件           良性软件被分类成恶意比例
                 注: “/”表示该评估指标在图像、文本、软件多个领域都适用

                    (1) 攻击有效性
                    攻击有效性用于衡量后门攻击的攻击能力, 是后门攻击的重要指标. 有效的后门攻击应满足: (i) 后门样本能
                 够成功误导模型分类错误; (ii) 后门模型在良性样本上具有与干净模型类似的性能. 因此, 攻击有效性评价指标包
                 括攻击成功率     (attack success rate, ASR)、干净样本准确率  (clean accuracy, CAcc)、攻击前后干净样本准确率差值
                 ( △ CAcc).
                    (2) 攻击隐蔽性
                    攻击隐蔽性用于衡量后门攻击对抗防御的能力. 数据投毒后门攻击的投毒比例能够衡量攻击隐蔽性. 计算机
                 视觉中, 由于人类视觉系统对图像结构的变化敏感, 对颜色深度的变化不敏感, 因此在图像分类任务上, 研究人员
                 通常使用结构相似度        (structural similarity index, SSIM)、感知对抗相似度得分  (perceptual adversarial similarity
                 score, PASS)、感知损失  (learned perceptual image patch similarity, LPIPS) 和峰值信噪比  (peak signal-to-noise ratio,
                 PSNR) 衡量添加触发器前后两张图像的相似度, 表征触发器在人类视觉中的可见性. 自然语言处理任务中, 研究人
                 员通常利用语句困惑度        (perplexity, PPL) 衡量后门文本的自然度.
   367   368   369   370   371   372   373   374   375   376   377