Page 184 - 《软件学报》2020年第11期
P. 184

3500                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                                             Table 1  Synthetic datasets parameters
                                                   表 1   合成数据集参数
                                                   属性数目 D     簇数目 K     样本数目 N
                                         DataSet1     6          2        1 000
                                         DataSet2     30         4        1 000
                                         DataSet3     60         8        1 000

                    在 KSCC 聚类过程中,第 1 步要确定聚类簇数 K 和权重参数θ.由于数据集已经给定簇数目 K,所以这一步骤
                 可以用来验证指标 V KC 的有效性.首先,通过固定参数θ来估计 K,然后通过估计出来的 K 来确定最佳的θ.为了估
                 计 K,我们设定θ=5 并且 K ∈ ⎡  ⎣  2, N ⎤  ⎦  [23] .然后,我们选择使 V KC 值最小的 K 作为最佳簇数.图 2 显示了每个合成数
                 据集在不同的 K 上运行 30 次的平均 V KC 结果.图 3 显示了 6 个数据集上固定簇数目 K,不同θ取值下的 V KC 值.θ
                 的取值为 1~10,每次增加 0.5.每个 V KC 值对应每个θ在数据集上 50 次实验的平均 V KC .

                                     25
                                     20
                                     15

                                     10
                                     5
                                     0

                                     ‐5
                                         2    3    4    5    6    7    8    9    10

                                                     DataSet1  DataSet2  DataSet3
                           Fig.2    Change in the cluster validity index V KC  with various K on the Synthetic datasets
                                          图 2   合成数据集上不同 K 值对应的 V KC 变化

                                      V KC
                                        8
                                        6
                                        4
                                        2
                                        0
                                        ‐2
                                        ‐4
                                        ‐6
                                          11.5 22.533.544.555.566.5 77.588.599.5 10 θ
                                                DartaSet1   DataSet2   DataSet3
                                    Fig.3   Change in the V KC  with various θ on the synthetic datasets
                                          图 3   合成数据集上,不同θ值对应的 V KC 变化
                    结果表明,这 3 个合成数据集的最佳簇数目分别为 2,4,8,这些簇数目恰恰是已知数据集中的簇数目;并且观
                 察得到最佳的 V KC 值对应的θ为 1.5(DataSet1),3(DataSet2),2.5(DataSet3).表 2 列出了 4 种算法在合成数据集上
                 独立运行 100 次的平均聚类结果,以“均值±方差”的形式提供.
                    表 2 所报告的聚类精度均值反映了各个聚类算法的总体性能,而判断各个算法聚类性能的稳定性可以依
                 据所列的方差.聚类精度方差越小,说明算法聚类性能的稳定性越好.针对表 2 中所列的每行聚类结果,将最大的
                 指标值加黑显示.
   179   180   181   182   183   184   185   186   187   188   189