Page 231 - 《软件学报》2021年第12期
P. 231

陈晓琪  等:基于动态赋权近邻传播的数据增量采样方法                                                       3895



                    1.0                                1.0
                    0.8                                0.8

                    0.6                                0.6
                   y                                  y
                    0.4                                0.4

                    0.2                                0.2
                    0.0                                0.0
                       0.0  0.2  0.4  0.6  0.8  1.0        0.0  0.2  0.4  0.6  0.8  1.0
                                    x                                   x
                                 (a) Set 1                                         (b) Set 2


                   1.0                                 1.0
                   0.8                                 0.8

                   0.6                                 0.6
                   y                                  y
                   0.4                                 0.4

                   0.2                                 0.2
                   0.0                                 0.0
                       0.0  0.2  0.4  0.6  0.8  1.0        0.0  0.2  0.4  0.6  0.8  1.0
                                    x                                   x
                                 (c) Set 3                                         (d) Set 4
                                         Fig.3    Four synthetic data sets
                                          图 3   人工合成数据集情况
                             Table 3    Parameter setting for numerical experimental data sets
                                    表 3   数值型数据实验算法参数设置情况
                               数据集      Iris   wine   yeast  Set 1  Set 2  Set 3  Set 4
                             IAPNA  pc  0.015  0.015  0.011  0.015  0.017  0.015  0.013
                                    θ   0.05  0.23  0.45  0.05  0.13  0.25  0.42
                              ISAP
                                    δ   0.01  0.1  0.01  0.01  0.005  0.001  0.009
             相应的实验结果见表 4、表 5.从表中结果可以看到:AP 算法在小规模数据上耗时最短,但随着数据规模增
         加其效率大幅下降,并且在所有数据集上的聚类质量和采样质量都不太理想;IAPNA 算法是增量式输入数据的
         全局 AP 算法,其聚类质量和采样质量最优;但随着数据规模扩大,其时间消耗剧增,不适用于大规模数据的代表
         点采样;HAP 算法与 ISAP 算法都是分层采样代表点的方法,两种方法的聚类质量和采样质量均优于 AP 算法,
         接近 IAPNA 算法,但两种算法耗费的时间远低于 IAPNA 算法.但是 HAP 算法在合并推选层上采用的是自适应
         AP 聚类算法,需要执行多次标准 AP 算法得到最优的结果;随着数据规模的扩大,参与合并推选层采样的数据量
         也随之增大.因此,HAP 算法的时间消耗增加幅度比 ISAP 算法要大.ISAP 算法在聚类质量和采样质量与
         IAPNA,HAP 算法处于相同水平,但计算消耗的时间显著较短.
             上述实验结果也从实际应用角度表明:引入改进 AP 算法过程和分层处理的 ISAP 算法不仅获得了比标准
         AP 算法更好的采样效果,且可以具有更好的计算效率.这也在一定程度上佐证了前文第 4 节中关于 ISAP 算法
         性能的理论分析结果.
             4 种算法在 yeast 数据集上的效果都不理想.wine,yeast 和 Set 3 数据集内各簇的规模不尽相同,但是 wine 和
   226   227   228   229   230   231   232   233   234   235   236