Page 439 - 《软件学报》2024年第6期
P. 439

朱光辉 等: 基于自引导进化策略的高效自动化数据增强算法                                                    3015


                 耗时仅为   4.8 GPU  小时, 远远低于  Google AA, 而且和其他   AutoAugment 算法的耗时差距并不明显.
                    具体地, 针对现有增强策略搜索空间存在的离散不连续及搜索范围过大的问题, 本文首先提出一种有效的数
                 据增强策略连续化向量表示方法, 将自动化数据增强问题转换为连续化策略向量的搜索问题, 同时通过约束策略
                 向量的取值范围, 解决搜索空间过大的问题. 其次, 提出一种基于自引导进化策略的策略向量搜索方法. 自引导进
                 化策略利用历史估计梯度构建梯度矩阵并分解该梯度矩阵获取梯度子空间, 在探索点                             (即策略向量) 的搜索方向
                 采样时使用该梯度子空间进行引导采样. 这种引入历史估计梯度信息指导探索点更新的方法, 不仅能够有效避免
                 搜索过程陷入局部最优解, 而且能够加速算法收敛速度.
                    另外, SGES AA  算法高度适合并行化. 每一轮进化迭代过程中, 将产生多个相互无关的探索方向. 本文采用分
                 布式并行计算框架       Ray [10] 对多个探索方向对应的策略向量进行并行化评估, 从而进一步提升搜索效率. 除此之外,
                 已有的自动化数据增强算法大都图像聚焦于分类任务, 本文工作基于统一                         SGES AA  算法框架可支持图像分类、
                 语音分类和文本分类等多种媒体数据的智能化分析任务.
                    综上所述, 本文的研究内容和贡献点主要包含以下                3  个方面.
                    (1) 设计一种有效的增强策略连续化向量表示方法, 并在此基础上将离散的数据增强策略选择问题抽象为连
                                            数据集上的搜索耗时仅为
                 续化策略向量的搜索问题.
                    (2) 提出一种基于自引导进化策略的自动化策略向量搜索方法. 通过引入历史估计梯度信息引导搜索方向的
                 采样, 能够在避免陷入局部最优解的同时, 提升搜索效率.
                    (3) 在图像分类、语音分类以及文本分类等任务数据集上的大量实验结果表明, SGES AA                         算法在不显著增加
                 搜索耗时的情况下, 准确率优于已有大多数自动化数据增强算法.
                  1   相关工作

                    自动化数据增强的概念由          Google 的研究者最先提出      [3] , 其通过利用  AI 技术实现增强策略的自动化设计. 一
                 般来讲, 数据增强策略由多个子策略构成, 每个子策略包含若干个串联的数据增强操作. 每个增强函数操作对应两
                 个参数: 幅度   (magnitude) 和应用概率  (probability). 近年来, 学界研究提出的自动化数据增强算法可具体划分为以
                 下  5  类.
                    1) 基于强化学习的算法: Google AA 采用强化学习技术            [11] 对数据增强策略进行搜索, 该算法从基于循环神经
                                                [3]
                 网络的控制器中采样增强策略, 并将增强策略的预测准确率作为回报值, 优化更新控制器的参数. 该算法定义的数
                 据增强策略由     5  个子策略组成, 其中每个子策略包含了           2  个增强操作. 定义的搜索空间中包含          16  种增强操作. 由
                 于强化学习需要在离散的状态空间和动作空间上进行训练, 因此该算法将幅度参数均分为                              10  个区间, 应用概率均
                                                                    32
                                                             10
                 分为  11  个区间, 最终的搜索空间复杂度高达          (16×10×11) ≈2.9×10 . 而且, 策略的评估需要从头开始训练一个神
                 经网络代理模型, 从而导致巨大搜索耗时开销. Google AA             在  CIFAR-10  数据集  [12] 上需要5 000  个  GPU  小时才能
                 完成策略搜索工作. 尽管       Google AA  能够达到目前最优的准确率, 但是实用性不高.
                    2) 基于种群并行训练的算法: 为了解决           Google AA  在评估阶段需要重复地从头开始训练一个代理模型而导
                 致搜索效率低下的问题, PBA        算法  [4] 则从一边训练一边观察不同数据增强策略的增强效果的角度出发, 采用基于
                 种群训练   [13] 的超参数优化思想, 构建了由      16  个子模型组成的种群, 其中的子模型可并行训练. PBA             算法可以实现
                 子模型之间的权重共享, 并且在训练的不同阶段使用不同的增强超参数. 尽管                        PBA  算法最终的预测性能比       Google
                 AA  算法稍差, 但是其在     CIFAR-10                     5  个  GPU  小时. 另外, PBA  算法仍然需要配备大量
                 的  GPU  设备和计算节点保证种群中子模型的并行训练, 应用成本仍然较高.
                    3) 基于密度匹配的算法: 自动化数据增强一个假设是: 让未增强数据和增强后数据的密度尽量匹配从而保证
                                                                            [5]
                 模型的学习能力. 基于此假设, 研究人员提出了基于密度匹配的算法                     Fast AA , 其通过在  D train  上不使用数据增强
                                                   D valid  上进行预测, 最后使用验证集的预测准确率评估一个数据集和另
                 进行模型的训练, 之后在使用数据增强后的
                 一个数据集的匹配程度. 这种方式有效避免了重复训练模型带来的巨大时间开销. 然而, 研究者对于“密度匹配”思
                 想的原理没有给出理论解释, 只能从数据分布一致性的角度理解该思想. Fast AA                      同样能够大幅降低搜索耗时, 但
   434   435   436   437   438   439   440   441   442   443   444