Page 127 - 《软件学报》2021年第10期
P. 127
朱二周 等:一种采用新型聚类方法的最佳类簇数确定算法 3099
Table 6 Comparisons of evaluations on the clustering results of
the 20 synthetic datasets by 8 indexes (Continued)
表 6 不同指标对 20 个合成数据集聚类结果的评测效果对比(续)
各个指标得到的最佳类簇数
数据集 K opt + + + +
I CSP STR DAS
Circle2 2 3(0.60361) 2(0.81154) 2(0.72683) 2(0.21811)
Circle3 3 3(0.36740) 2(0.90938) 2(0.51806) 3(0.38327)
Circle4 4 7(0.21295) 3(0.84612) 2(0.91930) 4(0.26618)
Circle5 5 5(1.00553) 4(0.88641) 2(0.23717) 5(0.10756)
Parallel3 3 2(1.68848) 2(0.90637) 6(1.27871) 3(0.32581)
Parallel4 4 2(2.14058) 2(0.90927) 12(0.3295) 4(0.45678)
Parallel4-2 4 2(0.63037) 2(0.90927) 6(1.39099) 4(0.37306)
Parallel5 5 3(0.80623) 5(0.86936) 14(2.0715) 5(0.26653)
Parallel6 6 3(0.34052) 3(0.90934) 2(0.50918) 6(0.19673)
Ring2 2 2(0.97153) 2(0.92210) 2(1.36965) 2(0.25869)
Ring3 3 5(0.56237) 2(0.93545) 2(0.74060) 3(0.19157)
Ring4 4 3(0.66239) 2(0.91570) 2(3.68903) 4(0.16685)
Semicircle2 2 2(0.54996) 2(0.79341) 2(0.48896) 2(0.26031)
Semicircle3 3 4(0.45531) 3(0.89072) 3(0.66483) 3(0.28022)
Semicircle3-2 3 3(0.23147) 2(0.82773) 12(4.0373) 3(0.17311)
Semicircle4 4 2(0.38169) 3(0.90490) 2(0.63387) 4(0.13197)
Norm4 4 3(2.43180) 2(0.90995) 4(2.68012) 4(0.31976)
Norm6 6 3(0.89551) 2(0.91557) 6(1.09344) 6(0.20604)
Norm10 10 2(1.42443) 2(0.93609) 9(4.76834) 10(0.2663)
Norm12 12 3(1.75474) 4(0.94771) 12(7.8545) 12(0.3082)
结合表 2 和图 6 可以看出:
+
DAS 指标可以得到所有的合成数据集的最佳类簇数和最优划分;
+
CH 指标仅可以得到数据集 Semicircle2 的最佳类簇数;
COP 指标不能得到任何数据集的最佳类簇数;
DB 指标只能得到 Parallel4 的最佳类簇数;
+
Dunn 指标的性能相对较好,它可以获得 Cricle2、Parallel4、Parallel4-2、Parallel5、Ring2、Semicircle2、
Semicircle3 和 Norm4 这 8 个数据集的最佳类簇数;
+
I 指标可以得到 Circle3、Circle5、Ring2、Semicircle2 和 Semicircle3-2 这 5 个数据集的最佳类簇数;
+
CSP 指标可以获得 Circle2、Parallel5、Ring2、Semicircle2 和 Semicircle3 这 5 个数据集的最佳类
簇数;
+
STR 指标可以获得 Circle2、Ring2、Semicircle2、Semicircle3、Norm4、Norm6 和 Norm12 这 7 个数
据集的最佳类簇数.
由实验结果可知:其他 7 个指标对于非凸型数据集,如圆环状数据集、直线型数据集、半圆环形数据集和
+
混合型数据集,都不能很好地给与处理.而本文提出的 DAS 指标可以应对图 6 中所有类型的数据集.故本文的
指标具有较为广泛的应用范围.
针对 6 个真实数据集,表 7 给出了不同指标之间的对比结果,各个表项的解释与表 6 相同.
Table 7 Comparisons of evaluationson the clustering results of the 6 real datasets by 8 indexes
表 7 不同指标对 6 个真实数据集聚类结果的评测效果对比
各个指标得到的最佳类簇数
数据集 K opt + +
CH COP DB Dunn
Column2 2 14(90.097) 2(0.09266) 3(0.72957) 2(1.70658)
Heart 2 3(39.3216) 3(0.20467) 2(1.14957) 2(0.51145)
German 2 4(271.778) 2(0.19236) 7(1.75141) 3(0.13252)
Iris 3 3(221.799) 5(0.28903) 3(0.59034) 2(0.33891)
Haberman 2 3(22.8471) 2(0.20717) 2(1.78887) 2(0.18878)
Tae 3 3(57.1369) 2(1.12424) 2(1.12424) 2(1.58212)