Page 453 - 《软件学报》2024年第6期
P. 453
朱光辉 等: 基于自引导进化策略的高效自动化数据增强算法 3029
4.5.2 子策略中操作函数个数对实验准确率的影响分析
在 SGES AA 算法设计中, 一个子策略包含了 L 个数据增强操作. 图 11–图 16 分别为不同子策略操作个数在
CIFAR-10、ESC-50 和 AGNews 数据集使用两种模型所得到的测试集准确率. 可以看出, 一个子策略中包含 2 个
操作函数均为最合适的选择, 过少的数据操作函数导致数据增强影响不足, 而过多的数据增强操作函数导致对数
据的修改幅度过大, 容易引起更大的数据噪声甚至修改数据的原有特征.
97.5
96.8
97.4
96.7 97.3
测试集准确率 (%) 96.5 测试集准确率 (%) 97.2
96.6
96.4
97.1
96.3
97.0
量的搜索. 在策略向量构造过程中, 对于增强函数类型, SGES AA
96.2
96.1 96.9
1 2 3 4 5 1 2 3 4 5
子策略操作个数 子策略操作个数
图 11 子策略操作个数在 CIFAR-10 数据集使用 图 12 子策略操作个数在 CIFAR-10 数据集使用
WRN 40×2 模型下得到的测试集准确率对比 WRN 28×10 模型下得到的测试集准确率对比
90.6
90.4
90.4
90.0 90.2
测试集准确率 (%) 89.2 测试集准确率 (%) 90.0
89.6
88.8
89.8
88.4
89.6
88.0
87.6 89.4
1 2 3 4 5 1 2 3 4 5
子策略操作个数 子策略操作个数
图 13 不同子策略操作个数在 ESC-50 数据集使用 图 14 不同子策略操作个数在 ESC-50 数据集使用
ResNet 模型下得到的测试集准确率对比 DenseNet 模型下得到的测试集准确率对比
4.5.3 策略向量构造方式对实验准确率的影响分析
本文提出的 SGES AA 算法首先将数据增强策略表示成连续化的向量, 然后基于自引导进化策略实现策略向
将区间 [0, 1] 均匀划分为与增强函数数量相同的
份数, 并将特定区间上的实数值映射到某个增强函数. 为了验证不同策略向量构造方式对准确率的影响, 本文进一
步实现了基于 one-hot 的策略向量构造方法 (SGES AA-one hot), 采用 one-hot 向量对增强函数类型进行表示. 令 N
为增强函数的数量, 在 SGES AA-one hot 中, <增强函数, 应用概率, 应用幅度> 三元组中的增强函数维度从 R 变
N
为 R . 表 18 显示了不同策略向量构造方式在 CIFAR-10 数据集上的准确率.
从表 18 中可以看到, SGES AA-one hot 在多个模型上的表现不如 SGES AA, 基于区间表示的方法优于基于 one-
hot 的表示方法. 对于 SGES AA-one hot, 其策略向量大小约是原策略向量的 N 倍 (本文 N = 15), 大大增加了需要优
化的策略参数数量, 导致搜索过程的不稳定以及难以收敛. 另外, 每一次搜索迭代结束后, 还需要对 one-hot 向量进行