Page 371 - 《软件学报》2025年第7期
P. 371
3292 软件学报 2025 年第 36 卷第 7 期
务中, 研究人员较多使用 Speech Recognition [174] 数据集; 恶意软件检测任务中, 各文献通常从 VirusShare、Chocolatey
等软件平台搜集恶意与良性软件, 使用较多的数据集是 EMBER [175] 和 DREBIN [176] .
表 7 自然语言处理后门攻击常用数据集
分类 任务 数据集 年份 类型 规模 相关研究
Bagdasaryan等人 [85] ,
Lv等人 [74] , LWP [77] , RIPPLES [80] , DFEP [76] ,
[138]
IMDb 2011 评论 50k
BadNL [39] , AddSent [42] , Shen等人 [49] ,
[93]
情感二分类 NOTABLE
LWP [77] , RIPPLES [80] , DFEP [76] , LWS [40] , Hidden
SST-2 [139] 2013 评论 11k Killer [44] , NURA [45] , Shen等人 [49] , BadPre [50] ,
NOTABLE [93]
情感多分类 SST-5 [139] 2013 评论 11k DFEP [76] , BadNL [39]
OffensEval [177] 2019 评论 - Shen等人 [49] , RIPPLES [80]
[80] [46] [49] [20]
RIPPLES , CARA , Shen等人 , LISM ,
[140]
Yelp 2015 评论 6.9M
NOTABLE [93]
情感分类
Amazon 评论 RIPPLES [80] , DFEP [76]
Reviews [178] 2007 5.9k
文本分类 [179] [72]
Movie Review 2005 评论 - Trojan
语法二分类 CoLA [180] 2019 句子 10k BadPre [50]
[181] [77] [49] [80]
Lingspam 2003 文本 - LWP , Shen等人 , RIPPLES
垃圾邮件检测
Enron [182] 2006 文本 0.5M LWP [77] , Shen等人 [49] , RIPPLES [80]
攻击性语言检测 OLID [183] 2019 文本 14k LWS [40] , Hidden Killer [44] , LISM [20] , NURA [45]
Jigsaw2018 [184] 2018 评论 0.3M Shen等人 [49] , RIPPLES [80] , Li等人 [91]
恶意评论检测
Twitter [185] 2020 评论 70k Shen等人 [49] , RIPPLES [80] , NOTABLE [93]
Question
问题分类 [186] 2002 句子 15k Trojan [72]
Classification
Shen等人 [49] , LWS [40] , Hidden Killer [44] ,
[187]
新闻话题分类 AG’s News 2015 段落 31k [45]
NURA
虚假新闻检测 COVID [188] 2021 句子 10k LISM [20]
相似性二分类 QQP - 语句对 0.4M DFEP [76] , BadPre [50]
语义文本相似性
释义二分类 MRPC [189] 2005 语句对 5.8k BadPre [50]
语义二分类 QNLI [141] 2016 语句对 - DFEP [76]
语句对四分类 SNLI [190] 2015 语句对 0.57M CARA [46]
推断
MNLI [191] 2018 语句对 - CARA [46]
语义三分类
RTE [192] 2007 语句对 - NOTABLE [93]
机器翻译 - WMT14 [193] 2014 文本 - Li等人 [91]
SQuAD [141] 2018 问答对 0.1M Li等人 [91] , BadPre [50] , NOTABLE [93]
问答任务 -
BoolQ [194] 2019 问答对 15k NOTABLE [93]
命名实体识别 - CoNLL [195] 2002 文本 21k Shen等人 [49] , BadPre [50]
注: “规模”表示数据集样本数量
表 8 其他领域后门攻击常用数据集
分类 任务 数据集 年份 领域 相关研究
[196] [81]
Wav2Vec2 2020 语音 Wei等人
语音 语音识别 TIMIT [197] 2012 语音 Wei等人 [81]
[174] [78] [72]
Speech Recognition - 语音 Tang等人 , Trojan

