Page 327 - 《软件学报》2020年第10期
P. 327
王晓东 等:多节点系统异常日志流量模式检测方法 3303
步骤 7 返回步骤 1 并重复,直至得到所有异常流量模式 NM 1 ,NM 2 ,…,NM m .
4 实验结果与分析评价
本节我们将第 3 节介绍的方法用于国家高性能计算环境系统在实际工作中产生的系统日志中.我们选取
其系统日志的 secure 类别日志作为数据输入.在日志分类时使用了 2017 年 7 月~2017 年 12 月的日志进行分类,
得到了 84 种类型的日志.考虑到日志在每天不同的时间段产生的异常日志流量模式的不同,因此我们将日志按
照 3 个时间段分段,即白天、晚上、深夜(参见表 1).我们将时间片跨度设定为 5 分钟,然后按照上一小节介绍的
方式得到输入矩阵并进行测试.
4.1 日志异常检测和筛选的分析评价
本小节我们使用第 3.2 节中介绍的基于主成分分析的异常检测技术对实验日志进行检测,得到各个时间片
的 Q 值并与模型的阈值 Q α 进行比较,从而得到异常时间片.各个时间片的 Q 值和阈值 Q α 如图 3 所示.
(a) 整体图 (b) 局部图
Fig.3 Q-value and threshold Q α figure of secure logs
图 3 Secure 类型日志的白天模型 Q 值和阈值 Q α 图
从图 3 可以看出,异常类型时间片均匀地分布在整个日志周期时间片内.根据得到的异常时间片,我们可以
统计正、异常时间片内不同类型日志的中位数的差异,经过实验分析,异常比正常时间片内日志类型的中位数
差值为 1 进行区分,即可达到很好的过滤效果.通过该差异,我们进行了第 1 步过滤.第 2 步过滤使用基于数量的
过滤,实际过滤时我们取主机阈值数 HTN=10 即可达到很好的过滤效果.根据这两条规则进行筛选后,最后得出
的所有异常流量数目见表 5.
Table 5 Number of abnormal flow and its filtered
表 5 异常流量与过滤后的数目
时段 流量片段总数 异常流量片段数 异常节点流量数 过滤后异常节点流量数 压缩率(%)
白天 22 665 2 997 66 646 2 659 96.01
晚上 13 607 1 965 43 754 1 662 96.20
夜里 18 150 1 964 43 488 1 512 96.52
由表 5 可以看出:通过我们的异常检测方法和过滤规则,使得大量的流量片段数据压缩成少量的日志类型
序列,大大降低了后续分析的难度.
4.2 日志层次聚类和关键类型挑选的分析评价
本节介绍由上一小节得到的大量异常日志流量序列按照第 3.3 节的方法进行层次聚类的相关实验.使用层
次聚类时有两个关键参数需要定义:一是不同数据之间的距离度量方法,二是不同簇之间的距离度量方法.不同
数据之间的距离定义我们按照第 3.3 节中介绍的距离公式进行计算,而不同簇间距离度量方法具有多种不同的