Page 121 - 《软件学报》2021年第10期
P. 121
朱二周 等:一种采用新型聚类方法的最佳类簇数确定算法 3093
Table 2 Descriptions of the 20 synthetic datasets
表 2 20 个人工合成数据集的描述
数据集 样本数 聚类数 K 的范围 K 的初始值
Circle2 400 2 2≤K≤20 40
Circle3 2 000 3 2≤K≤45 90
Circle4 1 000 4 2≤K≤32 64
Circle5 1 500 5 2≤K≤39 78
Parallel3 300 3 2≤K≤18 36
Parallel4 400 4 2≤K≤20 40
Parallel4-2 2 000 4 2≤K≤45 90
Parallel5 600 5 2≤K≤25 50
Parallel6 900 6 2≤K≤30 60
Ring2 500 2 2≤K≤23 46
Ring3 400 3 2≤K≤20 40
Ring4 500 4 2≤K≤23 46
Semicircle2 200 2 2≤K≤15 30
Semicircle3 300 3 2≤K≤18 36
Semicircle3-2 500 3 2≤K≤23 46
Semicircle4 900 4 2≤K≤30 60
Norm4 600 4 2≤K≤25 50
Norm6 800 6 2≤K≤29 58
Norm10 600 10 2≤K≤25 50
Norm12 600 12 2≤K≤25 50
Table 3 Descriptions of the 6 real datasets
表 3 6 个真实数据集描述
数据集 样本数 维数 聚类数 K 的范围 K 的初始值
Column2 310 6 2 2≤K≤18 36
Heart 270 13 2 2≤K≤17 34
German 1 000 24 2 2≤K≤32 64
Iris 150 4 3 2≤K≤13 26
Haberman 306 3 2 2≤K≤18 36
Tae 151 5 3 2≤K≤13 26
4.1 K-means-AHC算法性能评测
图 6 给出了采用 K-means-AHC 算法对表 2 中 20 个合成数据集进行处理后的空间分布图.
(a) Circle2 (b) Circle3 (c) Circle4 (d) Circle5
(e) Parallel3 (f) Parallel4 (g) Parallel4-2 (h) Parallel5
Fig.6 Spatial distributions of the 20 synthetic datasets
图 6 20 个合成数据集的结构分布图