Page 127 - 《软件学报》2021年第10期
P. 127

朱二周  等:一种采用新型聚类方法的最佳类簇数确定算法                                                     3099


                                    Table 6    Comparisons of evaluations on the clustering results of
                                         the 20 synthetic datasets by 8 indexes (Continued)
                                  表 6   不同指标对 20 个合成数据集聚类结果的评测效果对比(续)
                                                                 各个指标得到的最佳类簇数
                       数据集            K opt          +               +             +             +
                                                     I            CSP           STR           DAS
                       Circle2         2          3(0.60361)    2(0.81154)    2(0.72683)     2(0.21811)
                       Circle3         3          3(0.36740)    2(0.90938)    2(0.51806)    3(0.38327)
                       Circle4         4          7(0.21295)    3(0.84612)    2(0.91930)     4(0.26618)
                       Circle5         5          5(1.00553)    4(0.88641)    2(0.23717)    5(0.10756)
                      Parallel3        3          2(1.68848)    2(0.90637)    6(1.27871)     3(0.32581)
                      Parallel4        4          2(2.14058)    2(0.90927)    12(0.3295)     4(0.45678)
                      Parallel4-2      4          2(0.63037)    2(0.90927)    6(1.39099)     4(0.37306)
                      Parallel5        5          3(0.80623)    5(0.86936)    14(2.0715)     5(0.26653)
                      Parallel6        6          3(0.34052)    3(0.90934)    2(0.50918)     6(0.19673)
                       Ring2           2          2(0.97153)    2(0.92210)    2(1.36965)     2(0.25869)
                       Ring3           3          5(0.56237)    2(0.93545)    2(0.74060)    3(0.19157)
                       Ring4           4          3(0.66239)    2(0.91570)    2(3.68903)    4(0.16685)
                     Semicircle2       2          2(0.54996)    2(0.79341)    2(0.48896)     2(0.26031)
                     Semicircle3       3          4(0.45531)    3(0.89072)    3(0.66483)     3(0.28022)
                     Semicircle3-2     3          3(0.23147)    2(0.82773)    12(4.0373)     3(0.17311)
                     Semicircle4       4          2(0.38169)    3(0.90490)    2(0.63387)     4(0.13197)
                       Norm4           4          3(2.43180)    2(0.90995)    4(2.68012)     4(0.31976)
                       Norm6           6          3(0.89551)    2(0.91557)    6(1.09344)     6(0.20604)
                      Norm10          10          2(1.42443)    2(0.93609)    9(4.76834)     10(0.2663)
                      Norm12          12          3(1.75474)    4(0.94771)    12(7.8545)     12(0.3082)

                    结合表 2 和图 6 可以看出:
                           +
                       DAS 指标可以得到所有的合成数据集的最佳类簇数和最优划分;
                          +
                       CH 指标仅可以得到数据集 Semicircle2 的最佳类簇数;
                           
                       COP 指标不能得到任何数据集的最佳类簇数;
                          
                       DB 指标只能得到 Parallel4 的最佳类簇数;
                            +
                       Dunn 指标的性能相对较好,它可以获得 Cricle2、Parallel4、Parallel4-2、Parallel5、Ring2、Semicircle2、
                        Semicircle3 和 Norm4 这 8 个数据集的最佳类簇数;
                        +
                       I 指标可以得到 Circle3、Circle5、Ring2、Semicircle2 和 Semicircle3-2 这 5 个数据集的最佳类簇数;
                           +
                       CSP 指标可以获得 Circle2、Parallel5、Ring2、Semicircle2 和 Semicircle3 这 5 个数据集的最佳类
                        簇数;
                           +
                       STR 指标可以获得 Circle2、Ring2、Semicircle2、Semicircle3、Norm4、Norm6 和 Norm12 这 7 个数
                        据集的最佳类簇数.
                    由实验结果可知:其他 7 个指标对于非凸型数据集,如圆环状数据集、直线型数据集、半圆环形数据集和
                                                               +
                 混合型数据集,都不能很好地给与处理.而本文提出的 DAS 指标可以应对图 6 中所有类型的数据集.故本文的
                 指标具有较为广泛的应用范围.
                    针对 6 个真实数据集,表 7 给出了不同指标之间的对比结果,各个表项的解释与表 6 相同.

                        Table 7    Comparisons of evaluationson the clustering results of the 6 real datasets by 8 indexes
                                    表 7   不同指标对 6 个真实数据集聚类结果的评测效果对比
                                                                各个指标得到的最佳类簇数
                           数据集           K opt         +                                   +
                                                     CH          COP          DB          Dunn
                          Column2        2         14(90.097)  2(0.09266)   3(0.72957)   2(1.70658)
                            Heart        2         3(39.3216)  3(0.20467)   2(1.14957)  2(0.51145)
                           German        2         4(271.778)  2(0.19236)   7(1.75141)  3(0.13252)
                            Iris         3         3(221.799)   5(0.28903)   3(0.59034)   2(0.33891)
                          Haberman       2         3(22.8471)  2(0.20717)   2(1.78887)  2(0.18878)
                            Tae          3         3(57.1369)   2(1.12424)  2(1.12424)  2(1.58212)
   122   123   124   125   126   127   128   129   130   131   132