Page 288 - 《软件学报》2021年第10期
P. 288
3260 Journal of Software 软件学报 Vol.32, No.10, October 2021
模型评估指标的具体计算公式如下(其中,C 是类别的数量):
c TP
DR i 1 i (13)
C i 1 (TP FN i )
i
c FP
FAR i 1 i (14)
C i 1 (FP TN i )
i
c TP
Precision i 1 i (15)
C i 1 (TP FP i )
i
2 Precision Recall
Fscore (16)
1-
Precision Recall
5 UNSW-NB15 数据集
2015 年,Nour 和 Slay 提出的 UNSW-NB15 数据集 [21] 作为入侵检测领域新的基准数据集,能够正确反映当
今多样的攻击类型和复杂的网络情况.UNSW-NB15 数据集一共有 2 540 044 条数据,包含 49 个特征,一共有 10
个类别,分别是正常样本“Normal”和 9 种攻击类型:“Fuzzers”“Analysis”“Backdoors”“DoS”“Exploits”“Generic”
“Reconnaissance”“Shellcode”和“Worms”.UNSW-NB15 数据集 [21] 有一个子集版本,训练集有 175 341 条数据,测
试集有 82 332 条数据,包含 41 个特征.子集数据特征见表 2.
Table 2 Subset data feature of UNSW-NB15
表 2 UNSW-NB15 子集数据特征
序号 特征名称 序号 特征名称 序号 特征名称 序号 特征名称 序号 特征名称
1 dur 10 dttl 19 swin 28 trans_depth 37 ct_ftp_cmd
2 proto 11 sload 20 stcpb 29 res_bdy_len 38 ct_flw_http_mthd
3 service 12 dload 21 dtcpb 30 ct_srv_src 39 ct_src_ltm
4 state 13 sloss 22 dwin 31 ct_state_ttl 40 ct_srv_dst
5 spkts 14 dloss 23 tcprtt 32 ct_dst_ltm 41 is_sm_ips_ports
6 dpkts 15 sintpkt 24 synack 33 ct_src_dport_ltm
7 sbytes 16 dintpkt 25 ackdat 34 ct_dst_sport_ltm
8 dbytes 17 sjit 26 smeansz 35 ct_dst_src_ltm
9 sttl 18 djit 27 dmeansz 36 is_ftp_login
经过实验发现,UNSW-NB15 数据子集具有冗余样本,冗余的表现是:特征值相同,攻击类型却不同.也就是
数据相同,类别却不同.其中的原因可能是 Moustafa 等人 [21] 对原始数据进行标注的时候产生了一些误差.这类冗
余数据对于模型来说属于噪声数据,会影响模型的效果.为此,在数据预处理时,本实验进行了数据清洗,将这些
噪声数据全部删除.为了实验效率,将数据子集进行采样,划分为训练集和测试集.训练集和测试集的分布见表 3.
Table 3 Data distribution of training set and test set
表 3 训练集和测试集的数据分布
训练集 测试集
序号 类别
数量 比例(%) 数量 比例(%)
1 Normal 6 522 43.79 1 673 44.92
2 Exploits 1 868 12.53 432 11.60
3 Fuzzers 1 389 9.33 353 9.48
4 Reconn 1 294 8.69 301 8.08
5 DoS 578 3.88 146 3.92
6 Generic 1 449 9.73 355 9.53
7 Shellcode 1 118 7.51 287 7.71
8 Analysis 275 1.85 74 1.99
9 Backdoor 274 1.84 74 1.99
10 Worms 130 0.87 29 0.78
合计 训练集数量 14 895 测试集数量 3 724