Page 11 - 《软件学报》2020年第11期

P. 11

丁世飞等:基于不相似性度量优化的密度峰值聚类算法 3327

文献[20,21],取 5 到 7;DDPC 中的 t 和ψ都取文献[24]中指出的默认值 100 和 256,k 值同样取 5~7.本文算法和各
对比算法均通过实验尝试获取最优参数以及最优值.由于 DDPC 算法中采用基于块的不相似性度量具有随机
性,所以结果同时给出最优值并给出 20 次实验的平均值.

Table 1 Synthetic datasets
表 1 人工数据集
Datasets Samples Attributes Categories
D 97 2 3
Flame 240 2 2
R15 600 2 15
Forty 1 000 2 40
S2 5 000 2 15
Table 2 Real-world datasets
表 2 真实数据集
Datasets Samples Attributes Categories
Iris 150 4 3
Seeds 210 7 3
Wine 178 13 3
WDBC 569 30 2
Ionosphere 351 34 2
Soybean 47 35 4

3.2 实验结果分析

3.2.1 人工数据集实验结果分析
本节对 5 组人工数据集进行 DDPC 测试,实验数据特征见表 1.其中,人工数据集 D 是典型的包含密度不均
匀的 3 个类的数据集,其余 4 个数据集包含了规模较小的 Flame 和规模较大的 S2;同时包含了分布均匀的 Forty
数据集,又包含了分布紧密、有交叉分布的 S2 数据集.
实验对二维数据集的结果采用可视化展示,一个颜色代表一个类.分别将本文 DDPC 算法和 DPC 算法以及
FKNN-DPC 算法、DPC-KNN 算法在以上 5 个数据集上进行了聚类,结果如图 4~图 8 所示.

Fig.4 Clustering results of different algorithms on D dataset
图 4 不同算法在 D 数据集上的聚类结果

6 7 8 9 10 11 12 13 14 15 16