Page 284 - 《软件学报》2021年第10期
P. 284
3256 Journal of Software 软件学报 Vol.32, No.10, October 2021
使用梯度提升决策树(gradient boosting decison tree,简称 GBDT)模型进行分类的入侵检测模型框架(RF-
GBDT).RF-GBDT 框架属于网络入侵检测多分类方法,具有预测精度较高、收敛速度较快以及泛化性能好的特
点,可以较好地解决网络异常检测中数据不平衡的多分类问题.
1.2 相关工作
入侵检测系统已逐渐发展成为商业化产品,国内对入侵检测的研究起步较晚,目前,国外的商业化入侵检测
[4]
产品保持着领导地位.2018 年,致力于信息技术研究和分析的 Gartner 公司公布了入侵检测与防御魔力象限 ,
思科(Cisco)、趋势安全(trend micro)和 Intel 安全(McAfee)保持着在入侵检测与防御方面的领导地位.中国绿盟
科技公司的入侵检测产品跃升“挑战者”象限,成为亚太地区首个进入该象限的厂商,入围象限的中国厂商还有
启明星辰、山石网科.由此可见:在入侵检测产品的实力方面,中国与国外领先的研究机构还有一定的差距.
[5]
近年来,机器学习算法被广泛地应用于解决网络入侵检测的问题.谢潇雨 结合当下应用广泛的深度神经
网络,提出了一种基于批归一化的卷积神经网络模型(BN-CNN),该模型在每一层卷积神经网络中加入对数据的
批归一化处理,然后经过网络的全连接层得到最终的分类结果;还提出了一种基于焦点损失函数的入侵检测模
型(FL-CNN),该模型使用卷积神经网络的方法对入侵检测数据进行训练,使用焦点函数作为模型的损失函数,
通过降低数据的非均衡性对模型检测结果的影响,降低正确分类样本的损失以,提高分类结果的准确性.池亚平
[6]
等人 设计了一种基于增益率算法和卷积神经网络算法的网络入侵检测模型,采用增益率筛选数据集数据特
征,在保证入侵检测准确率的同时,缩短了卷积神经网络的训练时间.该模型相比其他基于机器学习的入侵检测
模型具有较高的准确率和较强的泛化能力,同时优化了卷积神经网络的训练方式,在保证准确率的同时缩短了
神经网络训练的时间.但是机器学习算法会出现过拟合情况,导致入侵检测准确率降低.为解决该问题,夏景明
[7]
等人 提出了一种改进的随机森林分类网络入侵检测方法,通过高斯混合模型聚类算法,将数据分成不同的簇,
为每一个簇训练不同的随机森林分类器,通过这些训练好的随机森林分类器进行网络入侵检测.针对网络入侵
[8]
检测数据不平衡问题,研究人员主要在两个方面加以展开:基于数据层面的方法 和基于算法层面的方法 [9,10] .
基于数据层面的方法主要采用数据抽样的技术使得每个类别所占比例接近来进行模型构建.近年来,基于
抽样算法的分类器模型的构建成为一个研究热点 [11,12] .Chawla [13] 提出了基于 Synthetic Minority Over-sampling
Technique(SMOTE)方法的提升(boosting)方法,在每一次迭代中,使用 SMOTE 进行上采样.Nekooeimehr [14] 提出
了一种自适应半监督加权抽样方法,用于解决不平衡数据的分类问题.该算法采用半监督合成聚类方法对少数
类样本进行聚类处理,然后根据分类的复杂性或者交叉验证方式来对每个簇进行自适应的过抽样.该算法能够
很好地识别少数类样本.然而,基于采样的方法改变了数据的分布,许多机器学习算法是建立在训练集和测试集
数据同分布的假设下的,改变数据分布会使得最终在训练集的效果和测试集的效果有偏差.
基于算法层面的方法主要是通过改进算法训练过程以及采用多种集成策略来提升分类性能,使用单一的
机器学习算法应用于入侵检测问题往往效果不尽如人意,人们开始研究融合多个机器学习算法应用到入侵检
测问题中,比如 K 均值算法和决策树算法的融合 [15] 、K 均值算法和贝叶斯算法的融合 [16,17] ,采用特征选择技术
和分类器集成技术来构建模型.集成分类器是指通过多数投票、提升和装袋的方法结合多个弱分类器来提高多
分类性能的模型,集成或混合检测模型的构建,能够有效避免单个分类器出现的资源消耗和分类偏差等问题,能
够提高检测模型的分类性能并且能够降低方差,防止过拟合.
本文所提出的 RF-GBDT 模型框架就是从算法层面来提高入侵检测系统中多分类的效果:首先使用 GBDT
模型对特征进行重要性排序,并利用递归消除特征(recursive feature elimination,简称 RFE) [18] 方法进行特征选
择;然后使用随机森林模型对选出的最优特征子集进行特征变换;最后再使用 GBDT 分别对特征转换后新的训
练集和测试集进行训练和预测.