Page 121 - 《软件学报》2021年第10期
P. 121

朱二周  等:一种采用新型聚类方法的最佳类簇数确定算法                                                     3093


                                         Table 2    Descriptions of the 20 synthetic datasets
                                              表 2   20 个人工合成数据集的描述
                                          数据集      样本数    聚类数    K 的范围   K 的初始值
                                          Circle2   400     2    2≤K≤20     40
                                          Circle3   2 000   3    2≤K≤45     90
                                          Circle4   1 000   4    2≤K≤32     64
                                          Circle5   1 500   5    2≤K≤39     78
                                          Parallel3  300    3    2≤K≤18     36
                                          Parallel4  400    4    2≤K≤20     40
                                         Parallel4-2  2 000  4   2≤K≤45     90
                                          Parallel5  600    5    2≤K≤25     50
                                          Parallel6  900    6    2≤K≤30     60
                                           Ring2    500     2    2≤K≤23     46
                                           Ring3    400     3    2≤K≤20     40
                                           Ring4    500     4    2≤K≤23     46
                                         Semicircle2  200   2    2≤K≤15     30
                                         Semicircle3  300   3    2≤K≤18     36
                                        Semicircle3-2  500  3    2≤K≤23     46
                                         Semicircle4  900   4    2≤K≤30     60
                                          Norm4     600     4    2≤K≤25     50
                                          Norm6     800     6    2≤K≤29     58
                                          Norm10    600    10    2≤K≤25     50
                                          Norm12    600    12    2≤K≤25     50
                                            Table 3    Descriptions of the 6 real datasets
                                                  表 3  6 个真实数据集描述
                                       数据集     样本数    维数   聚类数    K 的范围    K 的初始值
                                       Column2  310    6     2    2≤K≤18      36
                                        Heart   270    13    2    2≤K≤17      34
                                       German   1 000  24    2    2≤K≤32      64
                                         Iris   150    4     3    2≤K≤13      26
                                       Haberman  306   3     2    2≤K≤18      36
                                         Tae    151    5     3    2≤K≤13      26

                 4.1   K-means-AHC算法性能评测
                    图 6 给出了采用 K-means-AHC 算法对表 2 中 20 个合成数据集进行处理后的空间分布图.






                          (a) Circle2                   (b) Circle3                  (c) Circle4                    (d) Circle5






                          (e) Parallel3                 (f) Parallel4                 (g) Parallel4-2                 (h) Parallel5
                                       Fig.6    Spatial distributions of the 20 synthetic datasets
                                             图 6   20 个合成数据集的结构分布图
   116   117   118   119   120   121   122   123   124   125   126