Page 185 - 《软件学报》2020年第11期
P. 185
徐鲲鹏 等:类属型数据核子空间聚类算法 3501
Table 2 Comparison of F-score and Accuracy by different algorithms on the synthetic datasets
表 2 合成类属型数据集上不同算法的 F-score 和 Accuracy 指标对比
指标 数据集 KSCC WKM MWKM KKM
DataSet1 0.9516±0.02 0.9312±0.18 0.9503±0.06 0.8869±0.04
F-score DataSet2 0.8023±0.05 0.7231±0.12 0.7623±0.06 0.7882±0.13
DataSet3 0.7133±0.13 0.6156±0.15 0.63796±0.08 0.6723±0.03
DataSet1 0.9654±0.02 0.9314±0.12 0.9631±0.03 0.8952±0.03
Accuracy DataSet2 0.8305±0.04 0.7319±0.11 0.7824±0.06 0.8054±0.06
DataSet3 0.7232±0.13 0.6346±0.14 0.6526±0.05 0.6833±0.03
从表 2 可以看出,由于 DataSet1 中只有两个属性相关,所以除 KKM [11] 之外,其余算法聚类质量相差不大,与
KKM [11] 相比,KSCC 由于进行特征选择识别出重要的属性 3 与属性 4,聚类结果明显较好.从 DataSet2 和
DataSet3 中可以看出,随着属性相关的数目增多,KSCC 的聚类精度明显高于 WKM 和 MWKM.这是由于 KSCC
进行了“核化”的操作,考虑了属性之间的关系.
下面通过一个实例说明 KSCC 在挖掘属性间关系的效果.以合成数据集 DataSet1 为例,属性 1 与属性 2 相
关,图 4 绘制了在这两个属性的二维子空间上样本的分布情况.原空间中两个属性相关,样本呈现环形分布.经过
核变换后,样本由原空间中的环形分布在非线性空间中拉伸成了近似线性分布,如图 5.图 5 表明,KSCC 通过核
变换将样本投影到了一个高维空间,在核空间中挖掘出了属性间非线性的组合形式,增大了数据线性可聚的
概率.
1
0.75
0.5
0.25
0
0 0.25 0.5 0.75 1
Fig.4 Distribution of samples in the original space Fig.5 Distribution of samples in non-linear space
图 4 原空间中样本分布 图 5 非线性空间中样本分布
4.3 真实数据及结果分析
为了能有效测试 KSCC 算法的聚类性能,本文同样在真实数据集上进行了测试,实验采用来自 UCI 的 6 个
真实数据集,其详细信息见表 3.
Table 3 Summary of the parameters for the real-world datasets
表 3 真实数据集的有关信息
UCI 数据集 属性数目 D 簇数目 K 样本数目 N
Breastcancer 9 2 699
Vote 16 2 435
Mushroom 21 2 8 124
Soybeansmall 35 4 47
Dermatology 33 6 366
Zoo 15 7 101
数据集 Breastcancer 是乳腺癌数据;Vote 来自美国国会投票记录;蘑菇数据集 Mushroom 包含的样本较多,
并且由于其中的 veil-type 属性因取值唯一在实验中剔除;Soybean(Small)是著名的大豆疾病数据;Dermatology
数据集用于医疗领域皮肤病诊断;Zoo 是动物数据,由于动物名称属性取值皆不相同,与动物种类无关,因此在实