Page 328 - 《软件学报》2020年第10期
P. 328
3304 Journal of Software 软件学报 Vol.31, No.10, October 2020
选择.在实验中,我们先使用不同簇间距离度量方法进行计算,然后根据结果计算其对应的共表性相关系数
(cophenetic correlation coefficient) [25] 来进行评价.共表相关系数越大,表明效果越好.我们使用半年 secure 类型日
志的白天模型进行计算,得到不同的簇间距离计算方法对应的共表相关系数,见表 6.
Table 6 Cophenetic correlation coefficient obtained by calculating
the distance between different clusters
表 6 不同簇间距离计算方法得到的共表相关系数
簇间距离计算方法 共表相关系数
平均距离标准方法(average) 0.55
最小距离标准方法(single) 0.26
最大距离标准方法(compelete) 0.50
根据表 6,我们选择使用基于平均值距离标准方法进行簇间距离的计算,因为该方法对应的共表相关系数
为最大值 0.55.最终得到的层次聚类图如图 4 所示.
Fig.4 Hierarchical clustering of the secure logs’ daytime sequence
图 4 Secure 类型日志白天序列的层次聚类图
通过图 4 可以看出:所有数据在横坐标为 1~3 内大量且迅速地聚集,之后趋于稳定.因此,选择层次聚类的距
离度量的阈值大致在相对较高的位置.在实际计算时,我们选择的阈值为 3.5.使用该值进行层次聚类得到的聚
类结果既可以保证类别较少,又可以使得每个小类别的聚集程度比较高.按照该阈值,我们将半年的 secure 日志
早、晚、夜数据分别进行层次聚类,得到日志流量类型序列.之后使用第 3.4 节中所描述的自适应 K 项集的方法
进行类别选择,得到 3 个时间区间内日志异常类型序列的代表.结果得到的前 K 项类别数量平均值以及对应的 K
值见表 7.其中,距离几何中心最近的日志异常类型序列比较长,这里就不再罗列.
Table 7 Table of secure logs’ sequence
表 7 Secure 日志类型序列表
节点模式 K 值 前 K 项类型日志序列数量的几何中心
D 0 4 11:7.58;7:5.34;6:4.85;12:4.77
6 11:49.20;6:37.00;7:30.60;1:26.20;4:19.00;5:19.00
D 1
D 2 4 7:5.40;2:3.58;0:2.69;16:2.53
D 3 6 1:2.66;11:2.33;2:2.00;38:1.33;6:1.33;12:1.33
2 1:6.00;28:5.00
D 4
M 0 4 11:7.83;7:4.94;6:4.93;12:4.58;4:2.65
M 1 3 7: 4.09;2:2.61;1:2.00
M 2 4 21:3.33;1:2.00;11:1.67;20:1.33
N 0 4 11:34.80;7:27.20;3:17.80;6:14.40
4 11:6.59;7:4.22;6:3.66;12:3.64
N 1
N 2 4 7:4.95;2:3.56;0:2.44;16:2.27
由表 7 可以看出,使用半年 secure 类别日志产生的类型序列根据白天、晚上和半夜分别生成了 5、3、3 类
的异常序列.我们将这 11 条异常序列继续进行层次聚类,结果如图 5 所示.根据该图可以看出:白天的模式代表