Page 328 - 《软件学报》2020年第10期
P. 328

3304                                  Journal of Software  软件学报 Vol.31, No.10, October 2020

         选择.在实验中,我们先使用不同簇间距离度量方法进行计算,然后根据结果计算其对应的共表性相关系数
         (cophenetic correlation coefficient) [25] 来进行评价.共表相关系数越大,表明效果越好.我们使用半年 secure 类型日
         志的白天模型进行计算,得到不同的簇间距离计算方法对应的共表相关系数,见表 6.

                           Table 6    Cophenetic correlation coefficient obtained by calculating
                                       the distance between different clusters
                                 表 6   不同簇间距离计算方法得到的共表相关系数
                                        簇间距离计算方法                     共表相关系数
                                     平均距离标准方法(average)                  0.55
                                     最小距离标准方法(single)                   0.26
                                    最大距离标准方法(compelete)                 0.50

             根据表 6,我们选择使用基于平均值距离标准方法进行簇间距离的计算,因为该方法对应的共表相关系数
         为最大值 0.55.最终得到的层次聚类图如图 4 所示.















                            Fig.4    Hierarchical clustering of the secure logs’ daytime sequence
                                   图 4   Secure 类型日志白天序列的层次聚类图
             通过图 4 可以看出:所有数据在横坐标为 1~3 内大量且迅速地聚集,之后趋于稳定.因此,选择层次聚类的距
         离度量的阈值大致在相对较高的位置.在实际计算时,我们选择的阈值为 3.5.使用该值进行层次聚类得到的聚
         类结果既可以保证类别较少,又可以使得每个小类别的聚集程度比较高.按照该阈值,我们将半年的 secure 日志
         早、晚、夜数据分别进行层次聚类,得到日志流量类型序列.之后使用第 3.4 节中所描述的自适应 K 项集的方法
         进行类别选择,得到 3 个时间区间内日志异常类型序列的代表.结果得到的前 K 项类别数量平均值以及对应的 K
         值见表 7.其中,距离几何中心最近的日志异常类型序列比较长,这里就不再罗列.
                                      Table 7    Table of secure logs’ sequence
                                         表 7   Secure 日志类型序列表
                               节点模式    K 值     前 K 项类型日志序列数量的几何中心
                                 D 0    4          11:7.58;7:5.34;6:4.85;12:4.77
                                        6   11:49.20;6:37.00;7:30.60;1:26.20;4:19.00;5:19.00
                                 D 1
                                 D 2    4          7:5.40;2:3.58;0:2.69;16:2.53
                                 D 3    6     1:2.66;11:2.33;2:2.00;38:1.33;6:1.33;12:1.33
                                        2              1:6.00;28:5.00
                                 D 4
                                 M 0    4       11:7.83;7:4.94;6:4.93;12:4.58;4:2.65
                                 M 1    3            7: 4.09;2:2.61;1:2.00
                                 M 2    4         21:3.33;1:2.00;11:1.67;20:1.33
                                 N 0    4        11:34.80;7:27.20;3:17.80;6:14.40
                                        4          11:6.59;7:4.22;6:3.66;12:3.64
                                 N 1
                                 N 2    4          7:4.95;2:3.56;0:2.44;16:2.27
             由表 7 可以看出,使用半年 secure 类别日志产生的类型序列根据白天、晚上和半夜分别生成了 5、3、3 类
         的异常序列.我们将这 11 条异常序列继续进行层次聚类,结果如图 5 所示.根据该图可以看出:白天的模式代表
   323   324   325   326   327   328   329   330   331   332   333