Page 15 - 《软件学报》2020年第11期
P. 15
丁世飞 等:基于不相似性度量优化的密度峰值聚类算法 3331
部密度,所以避免了 DPC 算法中参数 d c 的选择.而本文参数 k 的选择因为聚类中心处于密度紧密的区域的特点,
所以在本文实验中 k 的选择对聚类结果的影响不是很大.
Table 3 Clustering accuracy of different algorithms on different datasets
表 3 各算法在不同数据集上的聚类准确率
Datasets DDPC DPC FKNN-DPC DPC-KNN
Iris 96(90.491) (k=7) 94 (d c=2%) 90.667 (k=7) 90.667 (k=7)
Seeds 92.857(89.85) (k=7) 89.524 (d c=1%) 89.524 (k=7) 89.524 (k=7)
Wine 96.067(94.086) (k=7) 69.101 (d c=0.2%) 69.101 (k=7) 53.933 (k=7)
WDBC 94.903(92.249) (k=6) 62.917 (d c=2%) 62.917 (k=7) 79.438 (k=7)
Ionosphere 78.063(73.564) (k=6) 73.504 (d c=0.5%) 68.091 (k=7) 68.091 (k=7)
Soybean 100(100) (k=6) 89.362 (d c=2%) 89.362 (k=7) 91.49 (k=7)
我们选取参数 k=5,k=6,k=7 分别进行了测试,取最优解并绘制了对比图,如图 9 所示.从图中可以看出,本文
算法在 k 变化的时候,聚类结果波动不大,即说明 DDPC 算法中参数具有鲁棒性.
Fig.9 Accuracy on different datasets with different k values
图 9 不同 k 值的在不同数据集上的准确率
4 结束语
本文提出一种基于不相似度量优化的密度峰值聚类算法,引入基于块的不相似性度量计算样本间的相似
度,并将此度量得到的样本间相似度引入样本的 K 近邻度量,结合样本的 K 近邻信息定义新的局部密度计算方
式,统一局部密度的度量方式,避免了小样本数据集上参数 d c 选择问题,并提高 DPC 算法在复杂数据集,尤其是
维度较高以及密度不均匀数据集上的缺陷.同时,本文算法虽然增加了参数 k,但是由于 DDPC 算法是对 DPC 算
法的优化,保留了传统 DPC 算法选取聚类中心的方法,所以参数 k 的选择具有鲁棒性.本文从理论以及实验证明
分析了优化后的密度峰值聚类算法 DDPC 优于传统的 DPC 算法以及优化的 FKNN-DPC 和 DPC-KNN 算法.
本文 DDPC 算法如何合理分配剩下的点而不是采用一步式分配策略,并有效处理噪声点,需要进一步探索.
References:
[1] Zhang W, Du L, Li L, Zhang X, Liu H. Infinite Bayesian one-class support vector machine based on Dirichlet process mixture
clustering. Pattern Recognition, 2018,78:56−78.
[2] Shi Y, Otto C, Jain A. Face clustering: Representation and pairwise constraints. IEEE Trans. on Information Forensics and Security,
2018,13(7):1626−1640.
[3] Ivannikova E, Park H, Hämäläinen T, Lee K. Revealing community structures by ensemble clustering using group diffusion.
Information Fusion, 2018,42:24−36.