Page 11 - 《软件学报》2020年第11期
P. 11

丁世飞  等:基于不相似性度量优化的密度峰值聚类算法                                                      3327


                 文献[20,21],取 5 到 7;DDPC 中的 t 和ψ都取文献[24]中指出的默认值 100 和 256,k 值同样取 5~7.本文算法和各
                 对比算法均通过实验尝试获取最优参数以及最优值.由于 DDPC 算法中采用基于块的不相似性度量具有随机
                 性,所以结果同时给出最优值并给出 20 次实验的平均值.

                                                  Table 1  Synthetic datasets
                                                     表 1   人工数据集
                                           Datasets  Samples  Attributes  Categories
                                             D        97        2         3
                                            Flame     240       2         2
                                            R15       600       2         15
                                            Forty    1 000      2         40
                                             S2      5 000      2         15
                                                 Table 2   Real-world datasets
                                                     表 2   真实数据集
                                           Datasets  Samples  Attributes  Categories
                                             Iris     150        4         3
                                            Seeds     210        7         3
                                            Wine      178       13         3
                                           WDBC       569       30         2
                                          Ionosphere  351       34         2
                                           Soybean     47       35         4

                 3.2   实验结果分析

                 3.2.1  人工数据集实验结果分析
                    本节对 5 组人工数据集进行 DDPC 测试,实验数据特征见表 1.其中,人工数据集 D 是典型的包含密度不均
                 匀的 3 个类的数据集,其余 4 个数据集包含了规模较小的 Flame 和规模较大的 S2;同时包含了分布均匀的 Forty
                 数据集,又包含了分布紧密、有交叉分布的 S2 数据集.
                    实验对二维数据集的结果采用可视化展示,一个颜色代表一个类.分别将本文 DDPC 算法和 DPC 算法以及
                 FKNN-DPC 算法、DPC-KNN 算法在以上 5 个数据集上进行了聚类,结果如图 4~图 8 所示.


























                                     Fig.4    Clustering results of different algorithms on D dataset
                                            图 4   不同算法在 D 数据集上的聚类结果
   6   7   8   9   10   11   12   13   14   15   16