Page 316 - 《软件学报》2021年第5期
P. 316

1540                                     Journal of Software  软件学报 Vol.32, No.5,  May 2021

                    如表 2 所示,大多数规则包含仅来自两个组织的少量入侵检测系统生成的网络扫描警报,这表明两个组织
                 正在运行带有大量分布式入侵检测系统的大型骨干网;与其他类型的警报(例如暴力破解)相比,网络扫描警报
                 的数量大,因此包含网络扫描警报的规则排在前 10 名;由于顺序规则挖掘不随时间变化,因此规则之间的最小
                 和平均时间差取自与规则匹配的事件,表明了可以缓解预测出的攻击的剩余时间.
                 3.2   方法特征分析

                    由第 3.1 节中的论述可以看出:不同种类的智能攻击行为预测方法在原理上存在一定的差异,算法的侧重
                 点、属性及优劣势等各方面的表现也不完全相同.因此,本节从实时性、计算复杂度、训练样本规模、假设和
                 先验知识等方面对 4 类主流的预测方法进行对比分析,提取和总结不同方法的特征,比较各种方法之间的算法
                 优势、局限性等,结果见表 3.
                               Table 3    Comparison of methods for behavior-prediction of intelligent attack
                                              表 3   智能攻击行为的预测方法对比
                                    计算复    训练样本    假设&先验
                    方法类型     实时性                                     算法优势                 算法劣势
                                    杂度      规模       知识
                                                                 良好的拟合性和数据             对数据样本依赖性
                    神经网络       ◐      ●      ●        ✘
                                                                 表征能力,准确率较高            较强,训练代价较大
                                                             考虑收益型战略推理,更深刻地理解          参数设置缺乏标准,
                     博弈论       ○      ●        ◐      ✔
                                                              复杂攻击意图和多模式攻击行为           具有一定的主观性
                     攻击图       ●      ○      ○        ✔          小规模数据表现较好             需要一定的先验知识
                                                              基于海量样本挖掘,分类和归纳           对数据样本依赖性
                    数据挖掘       ○       ◐     ●        ✘
                                                                更准确,深层数据特征描述           较强,训练代价较大
                    注:✔=满足,✘=不满足;○=低,◐ =中,●=高
                    如表 3 所示,基于神经网络的预测方法以人工神经网络算法作为基础,在对智能攻击事件序列的非线性特
                 征进行学习时具有绝对的优势,并且具有良好的拟合性、对目标样本的自学习和自记忆等特性,可以获取到智
                 能攻击事件中复杂非线性数据的特征模式,代表性的工作有 Tiresias                  [33] 、BRNN-LSTM [57] 、ALEAP [58] 等.基于神
                 经网络的预测方法基于大规模样本训练,对智能攻击事件之间的逻辑关系、规律的挖掘准确率较高,但对数据
                 样本质量依赖性较强,训练耗时久,代价较高,且容易陷入局部最小点,易出现过度拟合而使得泛化能力较差,网
                 络拓扑结构的确定没有成熟的理论指导,其解不具有稀疏性且难以解释等缺陷.
                    基于博弈论的预测方法通常针对具有攻防博弈的对抗环景,根据攻击者和防御者掌握对手信息的完整性,
                 而建立不同的博弈游戏模型,代表工作有 NashSVM 算法               [37] 、双人零和静态博弈     [38] 、随机预测博弈   [39] 、基于动
                 态贝叶斯博弈的预测模型         [40] 等.基于博弈论的方法考虑收益型战略推理,可以更深刻地理解攻击者的意图,包括
                 攻击目标、攻击来源、攻击行为之间的联系等,并描述行为之间的逻辑关系,以此和攻击者进行博弈和对抗,做
                 出更具针对性的决策.
                    基于攻击图的预测方法以图网络结构构建模型,例如有向攻击图、马尔可夫链、贝叶斯网络图等,代表性
                 的工作有僵尸网络依赖关系图           [41] 、不确定性感知攻击图      [42] 以及结合了攻击图和博弈论的双层攻防模型              [43] 等.
                 此类算法通常以身份作为节点,攻击手段作为图网络的边,表示“实体”之间的不同联系,在小规模的数据场景下
                 表现较好,但需要一定的先验知识作为基础.
                    与前面 3 种预测方法相比,数据挖掘对数据深层的隐藏特征和内部模式具有较强的表征能力,但通常作为
                 其过程中的一种技术手段,代表性的工作有情感分析方法                    [45] 、相似性序列比对    [47,48] 以及构建推荐系统   [69] .基于
                 数据挖掘的预测方法通过对海量攻击警报、检测结果等先验知识进行统计分析、规则关联及分类归纳等,挖掘
                 出攻击信息之间的规律,对未来攻击进行分类和预测;或结合攻击图、博弈论等算法建模预测,对钓鱼网站、社
                 交网络攻击的预测具有良好的表现.
                 3.3   适用范围分析

                    通过第 3.1 节对几类主流预测方法的原理的详细阐述,结合第 3.2 节对不同方法的实时性、计算复杂度、
   311   312   313   314   315   316   317   318   319   320   321