Page 283 - 《软件学报》2021年第10期
P. 283
周杰英 等:融合随机森林和梯度提升树的入侵检测研究 3255
Key words: network intrusion detection; unbalanced data; random forest; gradient boosting tree; UNSW-NB15 dataset
1 引 言
1.1 介 绍
随着计算机应用的快速发展,网络入侵检测已成为保障计算机安全的一道重要屏障.入侵检测早在 30 年前
就已成为研究者们关注的领域,现在依然是研究的热点,不断产生新的技术进展.入侵检测是一种安全机制,通
过分析主机审计数据、网络流量数据等特征来监测和过滤网络行为,在网络通信中识别出异常访问,并及时通
知网络管理员,以此来达到保护网络信息安全的目的.
入侵检测系统通常可以分为 3 个模块:数据采集模块、入侵检测模块和响应处理模块,如图 1 所示.数据采
集模块主要负责从网路中采集数据,采集数据的来源有很多,如系统日志、网络数据流量、主机审计数据等,采
集到的数据被送入入侵检测模块;入侵检测模块负责对采集到的数据进行数据处理和建模分析,以判断行为是
否是攻击行为、属于哪种攻击等,它是入侵检测系统的核心,直接影响到入侵检测系统的好坏;响应处理模块接
收入侵检测模块检测到的攻击数据,并根据其攻击类型采取相应的处理措施来进行处理.
入侵检测系统
数据采集模块 入侵检测模块 响应模块
传感器 数据处理 处理攻击类型 1
网络流量数据 检测技术 处理攻击类型 2
主机审计数据 攻击检测 处理攻击类型 3
Fig.1 Intrusion detection system
图 1 入侵检测系统
按照入侵检测技术的不同,入侵检测可以分为基于异常的检测和基于滥用的检测.每种检测方式都有各自
[1]
的局限性,并不适用于识别所有的攻击行为 .基于滥用的检测是指由专家介入,分析各种常用的攻击手段,建立
入侵特征模式库,通过对定义好的入侵模式进行规则匹配,来判断新的数据是否是攻击数据.滥用检测对于已知
类型的攻击行为具有很高的准确率,且误报率很低.常用的滥用检测技术包括专家系统、模式匹配等.但是滥用
检测需要频繁更新数据库的规则和签名,且很难检测出新型的零日漏洞攻击.基于异常的检测则关注网络和系
统的异常情况,对正常状态下的网络和系统进行建模,在定义了正常模式之后,偏离正常模式的数据即被判断为
异常.因此,异常检测可以检测出新型的攻击类型.常用的异常检测技术包括基于统计模型的异常检测、基于机
器学习的异常检测和基于免疫算法的异常检测等.鉴于每种方法都有局限性,基于滥用检测与异常检测混合的
技术 [2,3] 也被广泛加以研究,并应用于入侵检测系统中.
网络入侵检测主要面临的问题有以下几个.
(1) 多样性:入侵检测数据中数据的攻击类型往往有很多种,检测时需要分辨其具体属于哪种攻击类型.
因此,入侵检测问题是一个多分类问题,检测难度要大于单纯的二分类问题;
(2) 数据不平衡:在入侵检测数据中,攻击类型的样本非常少,存在严重的数据不平衡问题.这样会严重影
响数据的建模与训练.
针对上述多分类与类别不平衡的问题,本文提出一种基于随机森林(RandomForest,简称 RF)进行特征转换、