Page 283 - 《软件学报》2021年第10期
P. 283

周杰英  等:融合随机森林和梯度提升树的入侵检测研究                                                      3255


                 Key words:    network intrusion detection; unbalanced data; random forest; gradient boosting tree; UNSW-NB15 dataset

                 1    引   言

                 1.1   介   绍

                    随着计算机应用的快速发展,网络入侵检测已成为保障计算机安全的一道重要屏障.入侵检测早在 30 年前
                 就已成为研究者们关注的领域,现在依然是研究的热点,不断产生新的技术进展.入侵检测是一种安全机制,通
                 过分析主机审计数据、网络流量数据等特征来监测和过滤网络行为,在网络通信中识别出异常访问,并及时通
                 知网络管理员,以此来达到保护网络信息安全的目的.
                    入侵检测系统通常可以分为 3 个模块:数据采集模块、入侵检测模块和响应处理模块,如图 1 所示.数据采
                 集模块主要负责从网路中采集数据,采集数据的来源有很多,如系统日志、网络数据流量、主机审计数据等,采
                 集到的数据被送入入侵检测模块;入侵检测模块负责对采集到的数据进行数据处理和建模分析,以判断行为是
                 否是攻击行为、属于哪种攻击等,它是入侵检测系统的核心,直接影响到入侵检测系统的好坏;响应处理模块接
                 收入侵检测模块检测到的攻击数据,并根据其攻击类型采取相应的处理措施来进行处理.

                                                        入侵检测系统
                             数据采集模块                     入侵检测模块                     响应模块

                                传感器                      数据处理                     处理攻击类型 1


                             网络流量数据                      检测技术                     处理攻击类型 2


                             主机审计数据                      攻击检测                     处理攻击类型 3


                                                Fig.1   Intrusion detection system
                                                    图 1   入侵检测系统


                    按照入侵检测技术的不同,入侵检测可以分为基于异常的检测和基于滥用的检测.每种检测方式都有各自
                                                   [1]
                 的局限性,并不适用于识别所有的攻击行为 .基于滥用的检测是指由专家介入,分析各种常用的攻击手段,建立
                 入侵特征模式库,通过对定义好的入侵模式进行规则匹配,来判断新的数据是否是攻击数据.滥用检测对于已知
                 类型的攻击行为具有很高的准确率,且误报率很低.常用的滥用检测技术包括专家系统、模式匹配等.但是滥用
                 检测需要频繁更新数据库的规则和签名,且很难检测出新型的零日漏洞攻击.基于异常的检测则关注网络和系
                 统的异常情况,对正常状态下的网络和系统进行建模,在定义了正常模式之后,偏离正常模式的数据即被判断为
                 异常.因此,异常检测可以检测出新型的攻击类型.常用的异常检测技术包括基于统计模型的异常检测、基于机
                 器学习的异常检测和基于免疫算法的异常检测等.鉴于每种方法都有局限性,基于滥用检测与异常检测混合的
                 技术 [2,3] 也被广泛加以研究,并应用于入侵检测系统中.
                    网络入侵检测主要面临的问题有以下几个.
                    (1)  多样性:入侵检测数据中数据的攻击类型往往有很多种,检测时需要分辨其具体属于哪种攻击类型.
                        因此,入侵检测问题是一个多分类问题,检测难度要大于单纯的二分类问题;
                    (2)  数据不平衡:在入侵检测数据中,攻击类型的样本非常少,存在严重的数据不平衡问题.这样会严重影
                        响数据的建模与训练.
                    针对上述多分类与类别不平衡的问题,本文提出一种基于随机森林(RandomForest,简称 RF)进行特征转换、
   278   279   280   281   282   283   284   285   286   287   288