Page 233 - 《软件学报》2021年第12期
P. 233

陈晓琪  等:基于动态赋权近邻传播的数据增量采样方法                                                       3897


             实验结果见表 7.从表中结果可以看到:综合考虑代表性图像的平均距离、距离方差、综合覆盖度以及时间
         效率,ISAP 算法具有较为明显的优势.标准 AP 算法在各方面都不占优势;IAPNA 方法在数据集规模较大时时间
         耗费过大;而 HAP 算法得到的代表图像之间的平均距离较大,但是代表图像间距离的方差明显超过另外 3 种方
         法,其代表图像间的距离分布不平滑.
                           Table 7    Performance results obtained by serval compared methods
                                    on representational image selection problem
                                表 7  对比方法在代表性图像选择实验上的性能结果
                                      CarLogo                         ILSVARC50
                评价指标
                           AP      HAP    IAPNA    ISAP      AP      HAP    IAPNA     ISAP
                  类数       41      12       19      18       167     57       36      46
                 AEDRP    0.79     0.77    0.79     0.81     108     108      91      91
                  VRP     0.02     0.03    0.02     0.01     458     937      161     146
                  CCR     0.84     0.94    0.93     0.94    0.93     0.97    0.98     0.97
                 耗时(s)    0.05     0.79    0.49     0.27    10.3     15.2     121     6.20
                                    ILSVARC100                        ILSVARC150
                评价指标
                           AP      HAP    IAPNA    ISAP      AP      HAP    IAPNA     ISAP
                  类数      304      90      107      104      449     180      −       178
                 AEDRP    107      119     100      96       109     122      −       100
                  VRP     477      840     252      171      541     953      −       187
                  CCR     0.94     0.98    0.97     0.98    0.94     0.97     −       0.97
                 耗时(s)    51.3     191     1 303    26.5     155     691      −       58.4
             ISAP 算法从数据集 CarLogo 中选择的代表性图像如图 4 所示.
















                          Fig.4    Representational images selected by ISAP on CarLogo data set
                                图 4   ISAP 在 CarLogo 数据集上挑选的代表性图像
             可以看到:通过本文方法得到的代表性图像很好地覆盖了数据集,能够作为数据集的代表.

         5.4   数据增强应用
             深度学习是数据驱动的方法,用规模更大、质量更好的数据集去训练神经网络一般都能够得到泛化性能更
         好的模型.但在实际情况中,数据的采集面临多重困难,人工采集的样本在多样性和规模上均不能满足实际训练
         的需求.数据增强即数据扩增,是一种有效扩充数据规模,解决训练样本不足问题的方法                               [24−26] .数据增强能够扩
         充数据规模,增加数据噪声,使用增强后的数据集训练神经网络能够提高模型的泛化能力和鲁棒性.在图像识别
         领域,数据增强可以很好地提升训练模型的识别率.但简单的数据增强策略容易产生许多极其相似的图像序列.
             考虑检验 ISAP 算法在数据增强任务上的价值,实验数据来源于加州理工大学开源数据集 leaves,包含 3 种
         类型的叶片,共 186 张图像.利用仿射变换、高斯噪声、区域衰减、高斯模糊等数据增强手段,将 leaves 数据集
         的规模扩充 10 倍至 1 860 张图像,命名为 leavesDa10.在 leavesDa10 的基础上,再次利用上述数据增强手段将数
         据集规模扩充 5 倍至 9 300 张图像,命名为 leavesDa50.
             在 leavesDa50 上执行参数不同的 ISAP 算法,采样选取每个最终簇的 10 幅图像(ISAP 算法输出的代表点及
   228   229   230   231   232   233   234   235   236   237   238