Page 232 - 《软件学报》2021年第12期
P. 232

3896                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         Set 3 各簇之间规模相似,而 yeast 的簇规模差别较大,是典型的不平衡数据.从实验结果看,几种对比算法在不平
         衡数据集的效果均相对较差.
             对于代表点综合覆盖率性能指标,其与代表点对数据集的覆盖度和簇数(代表点数)有关,一般簇数越大,选
         取的代表点越多,其代表点对数据集的覆盖度越大.从 UCI 标准数据集上的结果来看:相比于标准 AP 算法,ISAP
         算法能在产生更少代表点的同时获得较大的代表点覆盖度,因此其综合覆盖度较高.此外,从人工合成数据集上
         的结果来看:ISAP 算法在与 HAP,IAPNA 算法产生相同簇数的情况下,ISAP 算法产生的代表点间的平均距离较
         大,方差较小,说明代表点间的相似性低,挑选结果平滑,显著性较好.
               Table 4    Performance results obtained by several compared sampling methods on three UCI datasets
                                表 4   不同方法在 3 个 UCI 数据集上的性能对比结果
                                Iris                    wine                    yeast
              评价指标
                       AP   HAP   IAPNA  ISAP  AP   HAP   IAPNA  ISAP  AP   HAP   IAPNA  ISAP
                NMI   0.373  0.576  0.576  0.767  0.306  0.448  0.872  0.743  0.124  0.189  0.106  0.212
                类数     13     2     2     3    19     2     3     3    120   5      3     14
               AEDRP  0.684  0.820  0.965  0.855  0.964  1.071  1.049  0.976  0.513  0.508  0.332  0.550
                VRP   0.120  0.000  0.000  0.026  0.063  0.000  0.029  0.030  0.070  0.117  0.0026  0.101
                CCR    0.611  0.647  0.647  0.640  0.619  0.595  0.590  0.595  0.916  0.653  0.387  0.991
               耗时(s)   0.026  0.072  0.135  0.095  0.031  0.093  0.220  0.100  6.327  3.006  21.434  1.984
             Table 5    Performance results obtained by several compared sampling methods on four synthetic datasets
                                表 5   不同方法在 4 个人工数据集上的性能对比结果
                                      Set 1                               Set 2
              评价指标
                         AP      HAP      IAPNA    ISAP      AP       HAP     IAPNA     ISAP
               NMI       0.68     1.00     1.00     1.00     0.40     1.00     1.00     1.00
               类数         8        4        4        4       15        3        3        3
              AEDRP      0.65     0.74     0.75     0.75     0.55     0.73     0.73     0.76
               VRP       0.09     0.03     0.03     0.03     0.08     0.07     0.08     0.06
               CCR       0.96     0.99     0.99     0.99     0.97     0.98     0.98     0.98
              耗时(s)      0.04     0.11     0.20     0.11     0.13     0.14     1.14     0.18
                                      Set 3                               Set 4
              评价指标
                         AP      HAP      IAPNA    ISAP      AP       HAP     IAPNA     ISAP
               NMI       0.53     1.00     1.00     1.00     0.61     1.00     1.00     1.00
               类数        28        6        6        6       29        8        8        8
              AEDRP      0.48     0.54     0.54     0.54     0.55     0.61     0.61     0.61
               VRP       0.05     0.02     0.02     0.02     0.07     0.04     0.04     0.04
               CCR       0.96     0.99     0.99     0.99     0.98     0.99     0.99     0.99
              耗时(s)      0.82     0.56     4.25     0.46     1.22     0.64     10.7     0.56
         5.3   代表性图像选择
             在本实验中,实验图像集来自搜索得到的车标图像以及 ILSVRC2014 图像集.车标图像集 Carlogo 共有 270
         张图像,包含 18 个类别的车标,每类包含 15 幅图像.分别取 ILSVARC2014 验证集的前 50 类、前 100 类和前 150
         类构成图像数据集 ILSVARC50,ILSVARC100,ILSVARC150,分别包含 2 500、5 000 和 7 500 张图像.
             实验过程中,调整 IAPNA 算法参数 pc、ISAP 算法截断参数θ和变动幅度参数δ多次执行算法,综合算法输
         出的簇数和采样质量选取,最终实验参数设置见表 6.代表性图像选择实验仅评估算法的采样质量.其中,Carlogo
         图像集采用 SIFT 特征匹配度作为图像间相似度,SIFT 相似度经过公式(9)转换后得出 Carlogo 数据集上的
         AEDRP 指标.ILSVARC 图像数据集则使用卷积神经网络(convolutional neural networks,简称 CNN)提取图像的
         特征向量,依据公式(9)计算图像间的特征相似度.
                         Table 6    Parameter setting in representational image selection experiment
                                    表 6   代表性图像选择实验参数设置情况
                              数据集          CarLogo  ILSVARC50  ILSVARC100  ILSVARC150
                          IAPNA     pc      0.003    0.000 5    0.000 1      −
                                     θ       0.27      0.3       0.2        0.1
                          ISAP
                                     δ       0.03     0.01       0.008      0.05
   227   228   229   230   231   232   233   234   235   236   237