Page 142 - 《软件学报》2021年第10期
P. 142
3114 Journal of Software 软件学报 Vol.32, No.10, October 2021
[9]
positive rate,简称 FR)等评价指标 :
检测到的入侵数
DR ,
数据集中入侵总数
被误报为入侵的正常数据
FR .
数据集中正常数据
实验分为 3 部分:第 1 部分为主要参数的测定,第 2 部分为稳定性测试,第 3 部分为与其他算法的对比实验.
实验选用本领域的权威数据集 KDD CUP 1999 中的一个 10%数据子集,KDD CUP 1999 数据集是美国国防
部高级规划署(DARPA)在 MIT 林肯实验室收集的一个用于异常检测、机器学习等研究领域的权威数据集,该
数据集包含了 39 种异常类型,每个样本有 41 维不同类型的属性 [33] .因此,实验首先需要进行数据预处理,将其中
的离散型属性转换成连续型属性.例如,其中的协议属性,实验设定的变换规则为 TCP1、UDP2、ICMP3
[9]
等 .
3.1 参数测定
实验首先进行匹配阈值()、邻域划分步长(step)的取值测试,这两个参数的取值是否合适,将直接影响到候
选检测器的耐受训练时间、检测器的分布效果以及检测算法的最终整体检测性能.因此,本节实验基于以上 3
个出发点进行设计,由两部分组成:第 1 部分是测试各个值下,检测器的生成时间、检测率和误报率,并择优选
择值,将其取值范围缩小到一个较小的区间,然后进一步测试每种 step 对检测率和误报率的影响,确定检测效
果较好的和 step 的取值组合;第 2 部分以选取的[,step]取值组合进行检测性能的稳定性测试,最终确定算法的
参数.
(1) 参数取值组合实验
实验分为 3 部分:第 1 部分为主要参数的测定,第 2 部分为稳定性测试,第 3 部分为与其他算法的对比实验.
实验选用本领域的权威数据集 KDD CUP 1999 数据集的一个 10%数据子集,KDD CUP 1999 数据集是美国
国防部高级规划署(DARPA)在 MIT 林肯实验室收集的一个用于异常检测、机器学习等研究领域的权威数据集,
该数据集包含了 39 种异常类型,每个样本有 41 维不同类型的属性 [33] .因此,实验首先需要进行数据预处理,将其
中的离散型属性转换成连续型属性,例如其中的协议属性,实验设定的变换规则为 TCP1、UDP2、ICMP3
[9]
等 .
Fig.7 Time to generate detectors Fig.8 Detection rate and false-positive rate
with different thresholds
图 7 检测器生成时间 图 8 不同值下获得的检测器的检测率和误报率
最后,从数据集中分别随机抽取正常样本的 30%、50%、70%作为训练自体集,参数设置同上.然后,随机抽
取样本组成 3 组测试数据集,每组样本选取比例同上.同样,每组实验进行 3 次,结果取均值和标准差如图 9 所示.
从中可以看出:随着 step 的不断增大,各个值下的检测率都呈逐渐下降趋势,当 step≥0.25 时,检测效果不尽理