Page 123 - 《软件学报》2021年第10期
P. 123

朱二周  等:一种采用新型聚类方法的最佳类簇数确定算法                                                     3095


                 其中,m i 为类簇 C i 中所有成员的个数,m ij 为类簇 C i 中的成员属于类簇 C j 的个数,K 是聚类的数目,m 是整个聚类
                 划分所涉及到的成员个数.本文中,将 Purity 指标的值转化为百分数来进行比较.
                    均方差((r))定义为
                                                                 2
                                                   ()r   N  (x    r ) / N                        (8)
                                                          i 1  i
                 其中,N 代表算法运行的次数,x i 表示第 i 次运行的结果,r 表示所有运行结果的平均值.








                              (a) Column2                            (b) Heart                            (c) German







                                 (d) Iris                          (e) Haberman                             (f) Tae

                              Fig.7    Spatial distributions of the 6 real datasets after dimensionality reduction
                                          图 7   降维后的 6 个真实数据集的结构分布图

                    表 4 给出了 6 种算法对 20 个合成数据集的处理结果.从表 4 所列数据可以看出,K-means-AHC 算法能够完
                 全正确地划分这些合成数据集,并在准确率、运行时间和稳定性等方面都有较好的表现.
                    在准确率方面,K-means-AHC 算法的平均准确率(均为 100%)是 6 种算法中最高的.AHC 算法的准确率与
                 K-means-AHC 接近.除了 Norm10 数据集以外,AHC 算法能够准确地得到其余 19 个数据集的聚类划分结果.DPC
                 算法可以得出 13 个数据集的准确聚类结果,对其余 7 个数据集也表现出较好的准确性.而其他 3 种算法均不能
                 获得很好的聚类划分结果.
                    在准确率的均方差方面,由于 AHC 算法总是合并相邻最近的类簇,DPI-K-means 和 DC-K-means 算法在初
                 始中心点的选择机制上都是寻找各自定义的密度最大的点,DPC 算法根据决策图确定中心点,因此这些算法在
                 每次运行过程中样本点的划分都一致,使得每次运行结果的聚类准确率不变,即准确率的均方差都为 0.虽然
                 K-means-AHC 算法和 K-means 算法都是随机选取初始中心点,但是 K-means-AHC 算法的稳定性明显比传统的
                 K-means 算法要好,在大多数情况下运行结果都一致.具体而言,K-means-AHC 算法准确率的均方差除了
                 Normal10 数据集之外均为 0.
                    在运行时间方面,DPC 算法的平均耗时最小,但运行时间在稳定性上不如 K-means-AHC 算法.K-means-
                 AHC 算法的平均耗时在小数据集上的表现稍大于 DPI-K-means 算法和 DC-K-means 算法,但在几个大数据集中,
                 K-means-AHC 算法的平均耗时要稍小于 DPI-K-means 和 DC-K-means 算法.K-means-AHC 算法的平均耗时也要
                 稍小于 K-means 算法的平均耗时,并远远小于 AHC 算法的平均耗时.在运行时间的均方差方面,K-means-AHC
                 算法在绝大多数情况下都表现出最好的稳定性,即耗时的均方差最小.
   118   119   120   121   122   123   124   125   126   127   128