Page 142 - 《软件学报》2021年第10期
P. 142

3114                                 Journal of Software  软件学报 Vol.32, No.10, October 2021

                                           [9]
                 positive rate,简称 FR)等评价指标 :
                                                        检测到的入侵数
                                                   DR                ,
                                                       数据集中入侵总数
                                                    被误报为入侵的正常数据
                                                FR                     .
                                                       数据集中正常数据
                    实验分为 3 部分:第 1 部分为主要参数的测定,第 2 部分为稳定性测试,第 3 部分为与其他算法的对比实验.
                    实验选用本领域的权威数据集 KDD CUP 1999 中的一个 10%数据子集,KDD CUP 1999 数据集是美国国防
                 部高级规划署(DARPA)在 MIT 林肯实验室收集的一个用于异常检测、机器学习等研究领域的权威数据集,该
                 数据集包含了 39 种异常类型,每个样本有 41 维不同类型的属性                 [33] .因此,实验首先需要进行数据预处理,将其中
                 的离散型属性转换成连续型属性.例如,其中的协议属性,实验设定的变换规则为 TCP1、UDP2、ICMP3
                  [9]
                 等 .
                 3.1   参数测定
                    实验首先进行匹配阈值()、邻域划分步长(step)的取值测试,这两个参数的取值是否合适,将直接影响到候
                 选检测器的耐受训练时间、检测器的分布效果以及检测算法的最终整体检测性能.因此,本节实验基于以上 3
                 个出发点进行设计,由两部分组成:第 1 部分是测试各个值下,检测器的生成时间、检测率和误报率,并择优选
                 择值,将其取值范围缩小到一个较小的区间,然后进一步测试每种 step 对检测率和误报率的影响,确定检测效
                 果较好的和 step 的取值组合;第 2 部分以选取的[,step]取值组合进行检测性能的稳定性测试,最终确定算法的
                 参数.
                    (1)  参数取值组合实验
                    实验分为 3 部分:第 1 部分为主要参数的测定,第 2 部分为稳定性测试,第 3 部分为与其他算法的对比实验.
                    实验选用本领域的权威数据集 KDD CUP 1999 数据集的一个 10%数据子集,KDD CUP 1999 数据集是美国
                 国防部高级规划署(DARPA)在 MIT 林肯实验室收集的一个用于异常检测、机器学习等研究领域的权威数据集,
                 该数据集包含了 39 种异常类型,每个样本有 41 维不同类型的属性                  [33] .因此,实验首先需要进行数据预处理,将其
                 中的离散型属性转换成连续型属性,例如其中的协议属性,实验设定的变换规则为 TCP1、UDP2、ICMP3
                  [9]
                 等 .
















                        Fig.7  Time to generate detectors                           Fig.8    Detection rate and false-positive rate
                                                                          with different thresholds
                            图 7   检测器生成时间                             图 8   不同值下获得的检测器的检测率和误报率
                    最后,从数据集中分别随机抽取正常样本的 30%、50%、70%作为训练自体集,参数设置同上.然后,随机抽
                 取样本组成 3 组测试数据集,每组样本选取比例同上.同样,每组实验进行 3 次,结果取均值和标准差如图 9 所示.
                 从中可以看出:随着 step 的不断增大,各个值下的检测率都呈逐渐下降趋势,当 step≥0.25 时,检测效果不尽理
   137   138   139   140   141   142   143   144   145   146   147