Page 371 - 《软件学报》2025年第7期
P. 371

3292                                                       软件学报  2025  年第  36  卷第  7  期


                 务中, 研究人员较多使用       Speech Recognition [174] 数据集; 恶意软件检测任务中, 各文献通常从    VirusShare、Chocolatey
                 等软件平台搜集恶意与良性软件, 使用较多的数据集是                 EMBER  [175] 和  DREBIN [176] .


                                             表 7 自然语言处理后门攻击常用数据集

                      分类           任务          数据集       年份    类型    规模              相关研究
                                                                                  Bagdasaryan等人 [85] ,
                                                                           Lv等人 [74] , LWP [77] , RIPPLES [80] , DFEP [76] ,
                                                  [138]
                                               IMDb      2011  评论    50k
                                                                             BadNL [39] , AddSent [42] , Shen等人 [49] ,
                                                                                           [93]
                                情感二分类                                               NOTABLE
                                                                         LWP [77] , RIPPLES [80] , DFEP [76] , LWS [40] , Hidden
                                              SST-2 [139]  2013  评论  11k  Killer [44] , NURA [45] , Shen等人 [49] , BadPre [50] ,
                                                                                    NOTABLE [93]
                                情感多分类         SST-5 [139]  2013  评论  11k          DFEP [76] , BadNL [39]
                                             OffensEval [177]  2019  评论  -      Shen等人 [49] , RIPPLES [80]
                                                                                [80]   [46]    [49]   [20]
                                                                         RIPPLES  , CARA  , Shen等人  , LISM  ,
                                                  [140]
                                               Yelp      2015  评论    6.9M
                                                                                    NOTABLE [93]
                                 情感分类
                                               Amazon          评论                RIPPLES [80] , DFEP [76]
                                              Reviews [178]  2007    5.9k
                    文本分类                             [179]                                [72]
                                            Movie Review  2005  评论    -               Trojan
                                语法二分类          CoLA [180]  2019  句子  10k             BadPre [50]
                                                    [181]                        [77]    [49]     [80]
                                             Lingspam    2003  文本     -      LWP  , Shen等人  , RIPPLES
                                垃圾邮件检测
                                               Enron [182]  2006  文本  0.5M   LWP [77] , Shen等人 [49] , RIPPLES [80]
                               攻击性语言检测         OLID [183]  2019  文本  14k  LWS [40] , Hidden Killer [44] , LISM [20] , NURA [45]
                                             Jigsaw2018 [184]  2018  评论  0.3M  Shen等人 [49] , RIPPLES [80] , Li等人 [91]
                                恶意评论检测
                                              Twitter [185]  2020  评论  70k  Shen等人 [49] , RIPPLES [80] , NOTABLE [93]
                                               Question
                                 问题分类                [186]  2002  句子  15k             Trojan [72]
                                            Classification
                                                                            Shen等人 [49] , LWS [40] , Hidden Killer [44] ,
                                                    [187]
                                新闻话题分类       AG’s News   2015  段落    31k                  [45]
                                                                                     NURA
                                虚假新闻检测        COVID [188]  2021  句子  10k              LISM [20]
                                相似性二分类          QQP       -   语句对    0.4M         DFEP [76] , BadPre [50]
                  语义文本相似性
                                释义二分类         MRPC [189]  2005  语句对  5.8k            BadPre [50]
                                语义二分类          QNLI [141]  2016  语句对  -               DFEP [76]
                                语句对四分类         SNLI [190]  2015  语句对  0.57M          CARA [46]
                      推断
                                              MNLI [191]  2018  语句对   -              CARA [46]
                                语义三分类
                                               RTE [192]  2007  语句对   -             NOTABLE [93]
                    机器翻译            -         WMT14 [193]  2014  文本   -              Li等人 [91]
                                              SQuAD [141]  2018  问答对  0.1M   Li等人 [91] , BadPre [50] , NOTABLE [93]
                    问答任务            -
                                              BoolQ [194]  2019  问答对  15k           NOTABLE [93]
                   命名实体识别           -         CoNLL [195]  2002  文本  21k         Shen等人 [49] , BadPre [50]
                 注: “规模”表示数据集样本数量



                                              表 8 其他领域后门攻击常用数据集

                    分类          任务               数据集              年份        领域            相关研究
                                                      [196]                                    [81]
                                               Wav2Vec2           2020      语音            Wei等人
                    语音        语音识别              TIMIT [197]       2012      语音            Wei等人 [81]
                                                         [174]                              [78]   [72]
                                            Speech Recognition    -         语音        Tang等人  , Trojan
   366   367   368   369   370   371   372   373   374   375   376