Page 231 - 《软件学报》2021年第12期

P. 231

陈晓琪等:基于动态赋权近邻传播的数据增量采样方法 3895

1.0 1.0
0.8 0.8

0.6 0.6
y y
0.4 0.4

0.2 0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
(a) Set 1 (b) Set 2

1.0 1.0
0.8 0.8

0.6 0.6
y y
0.4 0.4

0.2 0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
(c) Set 3 (d) Set 4
Fig.3 Four synthetic data sets
图 3 人工合成数据集情况
Table 3 Parameter setting for numerical experimental data sets
表 3 数值型数据实验算法参数设置情况
数据集 Iris wine yeast Set 1 Set 2 Set 3 Set 4
IAPNA pc 0.015 0.015 0.011 0.015 0.017 0.015 0.013
θ 0.05 0.23 0.45 0.05 0.13 0.25 0.42
ISAP
δ 0.01 0.1 0.01 0.01 0.005 0.001 0.009
相应的实验结果见表 4、表 5.从表中结果可以看到:AP 算法在小规模数据上耗时最短,但随着数据规模增
加其效率大幅下降,并且在所有数据集上的聚类质量和采样质量都不太理想;IAPNA 算法是增量式输入数据的
全局 AP 算法,其聚类质量和采样质量最优;但随着数据规模扩大,其时间消耗剧增,不适用于大规模数据的代表
点采样;HAP 算法与 ISAP 算法都是分层采样代表点的方法,两种方法的聚类质量和采样质量均优于 AP 算法,
接近 IAPNA 算法,但两种算法耗费的时间远低于 IAPNA 算法.但是 HAP 算法在合并推选层上采用的是自适应
AP 聚类算法,需要执行多次标准 AP 算法得到最优的结果;随着数据规模的扩大,参与合并推选层采样的数据量
也随之增大.因此,HAP 算法的时间消耗增加幅度比 ISAP 算法要大.ISAP 算法在聚类质量和采样质量与
IAPNA,HAP 算法处于相同水平,但计算消耗的时间显著较短.
上述实验结果也从实际应用角度表明:引入改进 AP 算法过程和分层处理的 ISAP 算法不仅获得了比标准
AP 算法更好的采样效果,且可以具有更好的计算效率.这也在一定程度上佐证了前文第 4 节中关于 ISAP 算法
性能的理论分析结果.
4 种算法在 yeast 数据集上的效果都不理想.wine,yeast 和 Set 3 数据集内各簇的规模不尽相同,但是 wine 和

226 227 228 229 230 231 232 233 234 235 236