Page 288 - 《软件学报》2021年第10期
P. 288

3260                                 Journal of Software  软件学报 Vol.32, No.10, October 2021

                    模型评估指标的具体计算公式如下(其中,C 是类别的数量):
                                                           c  TP
                                                   DR      i 1  i                                  (13)
                                                        C i 1 (TP   FN i )
                                                             i
                                                            c  FP
                                                   FAR      i 1  i                                 (14)
                                                         C i 1 (FP   TN i )
                                                              i
                                                              c  TP
                                                 Precision   i 1  i                                (15)
                                                           C i 1 (TP   FP i )
                                                                i
                                                       2 Precision Recall  
                                               Fscore                                               (16)
                                                1-
                                                         Precision Recall
                 5    UNSW-NB15 数据集

                    2015 年,Nour 和 Slay 提出的 UNSW-NB15 数据集    [21] 作为入侵检测领域新的基准数据集,能够正确反映当
                 今多样的攻击类型和复杂的网络情况.UNSW-NB15 数据集一共有 2 540 044 条数据,包含 49 个特征,一共有 10
                 个类别,分别是正常样本“Normal”和 9 种攻击类型:“Fuzzers”“Analysis”“Backdoors”“DoS”“Exploits”“Generic”
                 “Reconnaissance”“Shellcode”和“Worms”.UNSW-NB15 数据集 [21] 有一个子集版本,训练集有 175 341 条数据,测
                 试集有 82 332 条数据,包含 41 个特征.子集数据特征见表 2.
                                           Table 2    Subset data feature of UNSW-NB15
                                               表 2   UNSW-NB15 子集数据特征
                       序号   特征名称    序号    特征名称    序号   特征名称     序号     特征名称       序号      特征名称
                        1     dur    10     dttl   19    swin   28     trans_depth  37   ct_ftp_cmd
                        2    proto   11    sload   20    stcpb  29     res_bdy_len  38  ct_flw_http_mthd
                        3    service  12   dload   21    dtcpb  30     ct_srv_src  39    ct_src_ltm
                        4     state  13    sloss   22    dwin   31     ct_state_ttl  40   ct_srv_dst
                        5    spkts   14    dloss   23    tcprtt  32    ct_dst_ltm  41   is_sm_ips_ports
                        6    dpkts   15    sintpkt  24  synack  33   ct_src_dport_ltm     
                        7    sbytes  16    dintpkt  25  ackdat  34   ct_dst_sport_ltm      
                        8    dbytes  17     sjit   26   smeansz  35   ct_dst_src_ltm       
                        9     sttl   18     djit   27   dmeansz  36    is_ftp_login        

                    经过实验发现,UNSW-NB15 数据子集具有冗余样本,冗余的表现是:特征值相同,攻击类型却不同.也就是
                 数据相同,类别却不同.其中的原因可能是 Moustafa 等人            [21] 对原始数据进行标注的时候产生了一些误差.这类冗
                 余数据对于模型来说属于噪声数据,会影响模型的效果.为此,在数据预处理时,本实验进行了数据清洗,将这些
                 噪声数据全部删除.为了实验效率,将数据子集进行采样,划分为训练集和测试集.训练集和测试集的分布见表 3.
                                        Table 3    Data distribution of training set and test set
                                               表 3   训练集和测试集的数据分布
                                                        训练集               测试集
                                     序号     类别
                                                     数量      比例(%)     数量     比例(%)
                                      1    Normal    6 522    43.79    1 673   44.92
                                      2    Exploits  1 868    12.53    432     11.60
                                      3    Fuzzers   1 389    9.33     353      9.48
                                      4    Reconn    1 294    8.69     301      8.08
                                      5     DoS       578     3.88     146      3.92
                                      6    Generic   1 449    9.73     355      9.53
                                      7   Shellcode  1 118    7.51     287      7.71
                                      8    Analysis   275     1.85      74      1.99
                                      9    Backdoor   274     1.84      74      1.99
                                      10   Worms      130     0.87      29      0.78
                                         合计        训练集数量     14 895   测试集数量    3 724
   283   284   285   286   287   288   289   290   291   292   293