Page 453 - 《软件学报》2024年第6期
P. 453

朱光辉 等: 基于自引导进化策略的高效自动化数据增强算法                                                    3029


                  4.5.2    子策略中操作函数个数对实验准确率的影响分析
                    在  SGES AA  算法设计中, 一个子策略包含了         L  个数据增强操作. 图    11–图  16  分别为不同子策略操作个数在
                 CIFAR-10、ESC-50  和  AGNews 数据集使用两种模型所得到的测试集准确率. 可以看出, 一个子策略中包含                      2  个
                 操作函数均为最合适的选择, 过少的数据操作函数导致数据增强影响不足, 而过多的数据增强操作函数导致对数
                 据的修改幅度过大, 容易引起更大的数据噪声甚至修改数据的原有特征.

                                                                   97.5
                      96.8
                                                                   97.4
                      96.7                                         97.3
                    测试集准确率 (%)  96.5                             测试集准确率 (%)  97.2
                      96.6


                      96.4
                                                                   97.1
                      96.3
                                                                   97.0
                 量的搜索. 在策略向量构造过程中, 对于增强函数类型, SGES AA
                      96.2
                      96.1                                         96.9
                           1      2      3      4      5                1      2      3      4      5
                                    子策略操作个数                                      子策略操作个数
                   图 11 子策略操作个数在       CIFAR-10  数据集使用          图 12 子策略操作个数在        CIFAR-10  数据集使用
                     WRN 40×2  模型下得到的测试集准确率对比                     WRN 28×10  模型下得到的测试集准确率对比

                                                                   90.6
                      90.4
                                                                   90.4
                      90.0                                         90.2
                    测试集准确率 (%)  89.2                             测试集准确率 (%)  90.0
                      89.6


                      88.8
                                                                   89.8
                      88.4
                                                                   89.6
                      88.0
                      87.6                                         89.4
                           1      2      3      4      5                1      2      3      4      5
                                    子策略操作个数                                      子策略操作个数
                  图 13 不同子策略操作个数在         ESC-50  数据集使用        图 14 不同子策略操作个数在         ESC-50  数据集使用
                      ResNet 模型下得到的测试集准确率对比                        DenseNet 模型下得到的测试集准确率对比

                  4.5.3    策略向量构造方式对实验准确率的影响分析
                    本文提出的     SGES AA  算法首先将数据增强策略表示成连续化的向量, 然后基于自引导进化策略实现策略向
                                                                   将区间   [0, 1] 均匀划分为与增强函数数量相同的
                 份数, 并将特定区间上的实数值映射到某个增强函数. 为了验证不同策略向量构造方式对准确率的影响, 本文进一
                 步实现了基于     one-hot 的策略向量构造方法      (SGES AA-one hot), 采用  one-hot 向量对增强函数类型进行表示. 令     N
                 为增强函数的数量, 在       SGES AA-one hot 中, <增强函数, 应用概率, 应用幅度> 三元组中的增强函数维度从                R  变
                    N
                 为  R . 表  18  显示了不同策略向量构造方式在       CIFAR-10  数据集上的准确率.
                    从表  18 中可以看到, SGES AA-one hot 在多个模型上的表现不如         SGES AA, 基于区间表示的方法优于基于         one-
                 hot 的表示方法. 对于   SGES AA-one hot, 其策略向量大小约是原策略向量的          N  倍  (本文  N = 15), 大大增加了需要优
                 化的策略参数数量, 导致搜索过程的不稳定以及难以收敛. 另外, 每一次搜索迭代结束后, 还需要对                          one-hot 向量进行
   448   449   450   451   452   453   454   455   456   457   458