Page 118 - 《软件学报》2021年第10期
P. 118

3090                                 Journal of Software  软件学报 Vol.32, No.10, October 2021

                 小值定义为该类簇的簇间分离度,记为 sd(i):
                                         sd ( )i   min {min{dist ( ,x x j ) | x   i  C j , x   j  C j }}  (2)
                                                             i
                                                 C
                                                j
                                              1≤≤ | |, j i 
                    定义 3(聚类综合度,简称 csd).  本文将第 i 个类簇的簇间分离度和簇内紧密度之差与簇内紧密度和簇间分
                 离度之和的比值定义为聚类综合度,记为 csd(i):
                                                          sdi   ( )i
                                                            () cd
                                                   csd ()i                                          (3)
                                                          sdi   ()
                                                            () cd i
                    定义 4(平均聚类综合度,简称 E).  本文将所有类簇的聚类综合度的平均值定义为平均聚类综合度,记为
                 E(K):
                                                    ()  
                                                   EK      K  csd ( )i K                             (4)
                                                           i 1
                    定义 5(聚类有效性指标,简称 DAS).  假设数据集 D 被 K-mean-AHC 算法分别划分成 K 和 K+1 个类簇,即
                 {C 1 ,C 2 ,...,C K }和{C 1 ,C 2 ,...,C K+1 }.其中,{C 1 ,C 2 ,...,C K }是 D 的最优划分,即 D 的聚类划分数量在 K 时形成拐点.本文
                 将 D 被划分成 K 个类簇的平均聚类综合度 E(K)与将 D 被划分成 K+1 个类簇的平均聚类综合度 E(K+1)的差定
                 义为衡量聚类效果的聚类有效性指标,记为 DAS(K):
                                                   DAS(K)=E(K)E(K+1)                                (5)
                 3.2   对DAS的解释
                    聚类有效性指标主要用于评价聚类算法对数据集的划分结果,而聚类有效性指标大多是通过簇内紧凑性
                 和簇间分离性的某种组合来构造的.从簇内紧凑性来说,基于距离度量,我们希望一个类簇的样本之间的距离越
                 小越好.但是考虑到类簇内部的最小距离和最大距离都不具有代表性,而平均距离对一些非凸结构的数据集也
                 无法适用,因此,本文通过在单个类簇内部构造最小生成树,用最小生成树的平均权重作为这个类簇的簇内紧凑
                 性的度量.另一方面,从簇间分离性来说,我们希望类簇与类簇之间的距离越大越好.因此,本文将不同类簇中的
                 样本点之间的最小距离的最小值作为簇间分离性的度量.
                    以图 2 为例来解释 DAS 的含义及其相关概念.在图 2 中,根据欧氏距离的度量,数据集的所有样本点被划分
                 成 4 个类簇(A,B,C,D).在每个类簇内部,样本点之间的连线代表着类簇内部的样本点的最小生成树.以类簇 A 为
                 例,根据定义 1,类簇 A 的簇内紧密度为 cd(A)=(e 1 +e 2 +e 3 +e 4 +e 5 +e 6 )/6.在各个类簇之间,h 1 、h 2 和 h 3 分别是类簇 A
                 到类簇 C、类簇 D 和类簇 B 之间的最小单链距离.根据定义 2,类簇 A 的簇间分离度为 sd(A)=min{h 1 ,h 2 ,h 3 }.


















                                        Fig.2    Distribution of clustering structure for the DAS
                                              图 2   DAS 指标的类簇结构分布图
                    为了同时考虑簇内紧密度和簇间分离度,本文用 sd 与 cd 的差比上 sd 与 cd 的和作为聚类综合度 csd.在使
                 sd 和 cd 形成线性组合的同时,csd 也实现无量纲化.由于凝聚层次聚类(AHC)在每一次的迭代过程中总是将相邻
                 最近的类簇合并到一起,因此对于层次聚类的结果来说,类簇间的距离不会小于类簇内最小生成树的平均值,即
   113   114   115   116   117   118   119   120   121   122   123