Page 186 - 《软件学报》2020年第11期
P. 186

3502                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                 验中剔除.
                    根据第 4.2 节的方法对各真实数据集确定聚类簇数 K 和权重参数θ.图 6 显示了θ=5 时,每个真实数据集在
                 不同的 K 上运行 30 次的平均 V KC 结果.结果表明,Breastcancer、Vote 等这 6 个数据集的最佳簇数目分别为 2,2,2,4,
                 7,7.除了数据集 Dermatology 以外,这些簇数目恰恰是真实数据集中的簇数目,再次验证了 V KC 的有效性.分析
                 Dermatology 数据集可知,每个类别的样本数呈现分布不均衡的特点,所以影响了 V KC ,而真实簇数目对应的 V KC
                 (K=6)=3.5012 与 V KC 最小值(V KC (K=7)=3.4919)之间误差极小.图 7 显示了 6 个数据集上固定簇数目 K,不同θ取
                 值下的 V KC .由于数据集 Dermatology 与 Zoo 的 V KC 与其他相差过大,图 7 对其进行适当放缩.从图 7 可知,当θ为
                 1.5(Breastcancer),1.5(Vote),2(Mushroom),2.5(Soybeansmall),3.5(Dermatology),1.5(Zoo)时,聚类质量最好.表 4 列
                 出了 5 种算法在真实数据集上获得的聚类结果.从表 4 可以看出,与其他 3 种对比算法相比,KSCC 算法在大部
                 分真实数据集上均获得较高的聚类结果,尤其在样本数较多的 Mushroom、类别数最多的 Zoo 和相对高维的
                 Soybeansmall 数据集上,说明新算法对类属型数据集具有良好的适应性.在 Dermatology(医疗领域皮肤病诊断)
                 数据集中,红斑等皮肤病属性与是否发痒等属性有着明显的关系,WKM 算法与 MWKM 算法基于特征相互独立
                 假设,当数据具有较多的属性相关时,这类方法严重影响了聚类结果;而 KSCC 算法通过核方法以黑盒的方式考
                 虑了属性间的关系,提高了聚类质量.Mushroom 数据集不仅属性间相关,这 21 个属性的统计特性还存在明显的
                 差异.与 KKM  [11] 算法相比,KSCC 算法通过特征加权区分出 bruises(第 4 个属性)和 veil-color(第 16 个属性)等重
                 要的属性,赋予它们较大的权重,进一步说明了核子空间聚类的优势.

                                   60
                                   50
                                   40
                                   30
                                   20
                                   10
                                    0
                                   -10
                                   -20
                                   -30
                                   -40
                                   -50
                                        2    3    4     5    6    7     8    9    10
                                          Breastcancer  Vote  Mushroom  Soybeansmall  Dermatology  Zoo
                           Fig.6    Change in the cluster validity index V KC  with various K on the real-world datasets
                                          图 6   真实数据集上,不同 K 值对应的 V KC 变化

                                       V KC










                                                                                 θ


                                   Fig.7   Change in the V KC  with various θ on the real-world datasets
                                          图 7   真实数据集上,不同θ值对应的 V KC 变化
   181   182   183   184   185   186   187   188   189   190   191