Page 185 - 《软件学报》2020年第11期
P. 185

徐鲲鹏  等:类属型数据核子空间聚类算法                                                            3501


                        Table 2   Comparison of F-score and Accuracy by different algorithms on the synthetic datasets
                                 表 2   合成类属型数据集上不同算法的 F-score 和 Accuracy 指标对比
                            指标         数据集          KSCC         WKM         MWKM         KKM
                                       DataSet1   0.9516±0.02   0.9312±0.18   0.9503±0.06  0.8869±0.04
                           F-score     DataSet2   0.8023±0.05   0.7231±0.12  0.7623±0.06  0.7882±0.13
                                       DataSet3   0.7133±0.13   0.6156±0.15  0.63796±0.08  0.6723±0.03
                                       DataSet1   0.9654±0.02   0.9314±0.12  0.9631±0.03  0.8952±0.03
                          Accuracy     DataSet2   0.8305±0.04   0.7319±0.11  0.7824±0.06  0.8054±0.06
                                       DataSet3   0.7232±0.13   0.6346±0.14  0.6526±0.05  0.6833±0.03
                    从表 2 可以看出,由于 DataSet1 中只有两个属性相关,所以除 KKM              [11] 之外,其余算法聚类质量相差不大,与
                 KKM [11] 相比,KSCC 由于进行特征选择识别出重要的属性 3 与属性 4,聚类结果明显较好.从 DataSet2 和
                 DataSet3 中可以看出,随着属性相关的数目增多,KSCC 的聚类精度明显高于 WKM 和 MWKM.这是由于 KSCC
                 进行了“核化”的操作,考虑了属性之间的关系.
                    下面通过一个实例说明 KSCC 在挖掘属性间关系的效果.以合成数据集 DataSet1 为例,属性 1 与属性 2 相
                 关,图 4 绘制了在这两个属性的二维子空间上样本的分布情况.原空间中两个属性相关,样本呈现环形分布.经过
                 核变换后,样本由原空间中的环形分布在非线性空间中拉伸成了近似线性分布,如图 5.图 5 表明,KSCC 通过核
                 变换将样本投影到了一个高维空间,在核空间中挖掘出了属性间非线性的组合形式,增大了数据线性可聚的
                 概率.
                     1


                    0.75


                    0.5


                    0.25

                     0
                      0        0.25     0.5      0.75      1
                    Fig.4    Distribution of samples in the original space   Fig.5    Distribution of samples in non-linear space
                             图 4   原空间中样本分布                            图 5   非线性空间中样本分布
                 4.3   真实数据及结果分析

                    为了能有效测试 KSCC 算法的聚类性能,本文同样在真实数据集上进行了测试,实验采用来自 UCI 的 6 个
                 真实数据集,其详细信息见表 3.

                                    Table 3    Summary of the parameters for the real-world datasets
                                                表 3   真实数据集的有关信息
                                      UCI 数据集       属性数目 D      簇数目 K       样本数目 N
                                      Breastcancer     9           2          699
                                         Vote          16          2          435
                                       Mushroom        21          2          8 124
                                      Soybeansmall     35          4           47
                                      Dermatology      33          6          366
                                         Zoo           15          7          101
                    数据集 Breastcancer 是乳腺癌数据;Vote 来自美国国会投票记录;蘑菇数据集 Mushroom 包含的样本较多,
                 并且由于其中的 veil-type 属性因取值唯一在实验中剔除;Soybean(Small)是著名的大豆疾病数据;Dermatology
                 数据集用于医疗领域皮肤病诊断;Zoo 是动物数据,由于动物名称属性取值皆不相同,与动物种类无关,因此在实
   180   181   182   183   184   185   186   187   188   189   190