Page 15 - 《软件学报》2020年第11期
P. 15

丁世飞  等:基于不相似性度量优化的密度峰值聚类算法                                                      3331


                 部密度,所以避免了 DPC 算法中参数 d c 的选择.而本文参数 k 的选择因为聚类中心处于密度紧密的区域的特点,
                 所以在本文实验中 k 的选择对聚类结果的影响不是很大.
                                Table 3    Clustering accuracy of different algorithms on different datasets
                                           表 3   各算法在不同数据集上的聚类准确率
                              Datasets      DDPC             DPC        FKNN-DPC     DPC-KNN
                               Iris      96(90.491) (k=7)  94 (d c=2%)  90.667 (k=7)  90.667 (k=7)
                               Seeds    92.857(89.85) (k=7)  89.524 (d c=1%)  89.524 (k=7)  89.524 (k=7)
                               Wine     96.067(94.086) (k=7)  69.101 (d c=0.2%)  69.101 (k=7)  53.933 (k=7)
                              WDBC      94.903(92.249) (k=6)  62.917 (d c=2%)  62.917 (k=7)  79.438 (k=7)
                             Ionosphere   78.063(73.564) (k=6)  73.504 (d c=0.5%)  68.091 (k=7)  68.091 (k=7)
                              Soybean     100(100) (k=6)  89.362 (d c=2%)  89.362 (k=7)  91.49 (k=7)

                    我们选取参数 k=5,k=6,k=7 分别进行了测试,取最优解并绘制了对比图,如图 9 所示.从图中可以看出,本文
                 算法在 k 变化的时候,聚类结果波动不大,即说明 DDPC 算法中参数具有鲁棒性.





















                                     Fig.9    Accuracy on different datasets with different k values
                                           图 9   不同 k 值的在不同数据集上的准确率

                 4    结束语
                    本文提出一种基于不相似度量优化的密度峰值聚类算法,引入基于块的不相似性度量计算样本间的相似
                 度,并将此度量得到的样本间相似度引入样本的 K 近邻度量,结合样本的 K 近邻信息定义新的局部密度计算方
                 式,统一局部密度的度量方式,避免了小样本数据集上参数 d c 选择问题,并提高 DPC 算法在复杂数据集,尤其是
                 维度较高以及密度不均匀数据集上的缺陷.同时,本文算法虽然增加了参数 k,但是由于 DDPC 算法是对 DPC 算
                 法的优化,保留了传统 DPC 算法选取聚类中心的方法,所以参数 k 的选择具有鲁棒性.本文从理论以及实验证明
                 分析了优化后的密度峰值聚类算法 DDPC 优于传统的 DPC 算法以及优化的 FKNN-DPC 和 DPC-KNN 算法.
                    本文 DDPC 算法如何合理分配剩下的点而不是采用一步式分配策略,并有效处理噪声点,需要进一步探索.

                 References:
                 [1]    Zhang W, Du L, Li L, Zhang X, Liu H. Infinite Bayesian one-class support vector machine based on Dirichlet process mixture
                     clustering. Pattern Recognition, 2018,78:56−78.
                 [2]    Shi Y, Otto C, Jain A. Face clustering: Representation and pairwise constraints. IEEE Trans. on Information Forensics and Security,
                     2018,13(7):1626−1640.
                 [3]    Ivannikova E,  Park H, Hämäläinen T, Lee K. Revealing community  structures  by ensemble clustering  using  group  diffusion.
                     Information Fusion, 2018,42:24−36.
   10   11   12   13   14   15   16   17   18   19   20