Page 184 - 《软件学报》2020年第11期
P. 184
3500 Journal of Software 软件学报 Vol.31, No.11, November 2020
Table 1 Synthetic datasets parameters
表 1 合成数据集参数
属性数目 D 簇数目 K 样本数目 N
DataSet1 6 2 1 000
DataSet2 30 4 1 000
DataSet3 60 8 1 000
在 KSCC 聚类过程中,第 1 步要确定聚类簇数 K 和权重参数θ.由于数据集已经给定簇数目 K,所以这一步骤
可以用来验证指标 V KC 的有效性.首先,通过固定参数θ来估计 K,然后通过估计出来的 K 来确定最佳的θ.为了估
计 K,我们设定θ=5 并且 K ∈ ⎡ ⎣ 2, N ⎤ ⎦ [23] .然后,我们选择使 V KC 值最小的 K 作为最佳簇数.图 2 显示了每个合成数
据集在不同的 K 上运行 30 次的平均 V KC 结果.图 3 显示了 6 个数据集上固定簇数目 K,不同θ取值下的 V KC 值.θ
的取值为 1~10,每次增加 0.5.每个 V KC 值对应每个θ在数据集上 50 次实验的平均 V KC .
25
20
15
10
5
0
‐5
2 3 4 5 6 7 8 9 10
DataSet1 DataSet2 DataSet3
Fig.2 Change in the cluster validity index V KC with various K on the Synthetic datasets
图 2 合成数据集上不同 K 值对应的 V KC 变化
V KC
8
6
4
2
0
‐2
‐4
‐6
11.5 22.533.544.555.566.5 77.588.599.5 10 θ
DartaSet1 DataSet2 DataSet3
Fig.3 Change in the V KC with various θ on the synthetic datasets
图 3 合成数据集上,不同θ值对应的 V KC 变化
结果表明,这 3 个合成数据集的最佳簇数目分别为 2,4,8,这些簇数目恰恰是已知数据集中的簇数目;并且观
察得到最佳的 V KC 值对应的θ为 1.5(DataSet1),3(DataSet2),2.5(DataSet3).表 2 列出了 4 种算法在合成数据集上
独立运行 100 次的平均聚类结果,以“均值±方差”的形式提供.
表 2 所报告的聚类精度均值反映了各个聚类算法的总体性能,而判断各个算法聚类性能的稳定性可以依
据所列的方差.聚类精度方差越小,说明算法聚类性能的稳定性越好.针对表 2 中所列的每行聚类结果,将最大的
指标值加黑显示.