Page 163 - 《软件学报》2024年第4期
P. 163

钱鸿  等:  基于动态批量评估的绿色无梯度优化方法                                                       1741


         4.3   批量索引选择策略
             在构建的批量相似树后,  本节阐述如何根据批量相似树选择优化过程中需要被评估的批量,  即批量索引
         选择策略.  上一节中介绍了批量相似树的两种节点:  叶节点表示批量,  非叶节点存储其两个子节点之间的相
         似度信息.  显然,  在批量相似树中,  如果处于同一个父节点下的两个子节点距离根节点较远,  则表明它们之间
         的相似度很大(如图 5 步骤 4 中的叶节点 1 和叶节点 2).  由于本文所考虑的优化任务的昂贵性,  因此评估时选
         取批量的原则应该是:  在实现尽可能高的评估准确性的同时,  用尽可能少的批量样本进行评估.  换句话说,
         应该用尽可能少的批量来代表全体样本,  达到类似于评估全体样本的评估效果.  本文方法的基本想法是:  避
         免选择相似度高的批量.  相似度高的批量对解的评估值是高度相似的,  选择它们可能不能为模型提供多样的
         样本、探索更大的样本空间,  进而导致优化陷入局部极小值.
             在选择批量时,  批量相似树被分割成多个子树,  并认为同一子树中的叶节点相似度很高,  不同子树中的
         叶节点表现较大的差异性.  这是因为批量相似树是根据批量的相似性构建的,  具有更高相似度的节点会较早
         地分配给同一个父节点.  随后,  可以从每个子树中随机选择节点,  这样便可以确保选择出具有较大差异的批
         量进行评估.  通过上述过程可以发现,  基于批量相似树选择优化过程中使用的批量需要解决两个问题:  首先,
         需要确定如何将批量相似树分割为包含高度相似叶节点的多个子树;  其次,  需要确定从这些子树中选择出需
         要评估的批量方法.  这两个问题即是批量索引选择策略的关键.  对于第 1 个问题,  通过引入超参数γ来将二叉
         树分割成子树,  即:  如果一个节点是叶节点或其存储的距离小于γ,  而其父节点存储的距离大于γ,  则以该节点
         为根的子树将被视为选择的子树.  通过这种方法,  可以将批量相似树分割成多个子树,  且每个子树中的叶节
         点相似度很高.  对于第 2 个问题,  通过随机游走策略可以从每个子树中找出合适的节点来代表该子树.  随机游
         走策略从每个子树的根节点开始,  每次以等概率选择其左右节点之一.  这个过程重复进行,  直到到达一个叶
         节点,  则选择该叶节点对应的批量作为代表该子树的批量.  随机游走方法旨在增加选择树的上层节点的概率,
         因为这些节点与子树中的其他节点的差异更大.  因此,  使用该策略会返回更具差异性的批量.  图 6 展示了使用
         批量索引选择策略的一个示例.  首先,  根据最左侧的批量相似树的结构,  将分离超参数γ应用于树的符合分离
         条件的边,  得到由多个子树组成的森林;  然后,  与原始树结构的根节点连接的子树被移除;  最后,  从每个剩余
         子树的根节点执行随机游走策略,  选择表示该子树的叶节点,  得到需要评估的批量索引集合.

         5    实验分析

         5.1   实验设置
             实验部分,  本文分别在基于语言模型即服务的黑盒微调(BBT)任务(使用 RoBERTa LARGE 作为基础大模
         型,  该模型的参数量为 355 M)     [16] 和机器学习 LightGBM 模型  [21] 超参数调优任务上进行了对比实验、消融实验、
         超参数分析等实验,  并对算法运行过程和实验结果进行分析.
             模型与任务的选择以及相关的参数设置见表 1.
                                     表 1   任务、模型、数据集等基本情况
                                  优化任务的      数据集      数据集     批量     评估总量
                   任务与模型                                                         数据集特点
                                     维度       名称      大小(K)   大小      预算
                                              SST-2    67    8 (4×2)   6 000   语言情感(二分类)
                 [16]
              BBT  (RoBERTa LARGE)   500 和 50
                                            AG’s News   120   16 (4×4)   6 000   新闻话题(四分类)
                                              Digits   1.8   50, 100   300   手写数字识别(多分类)
                   LightGBM [21]     11      Housing   20.6    100     500        房价回归
                                             CovType   581     100     500   植被类型识别(多分类)
             对于 NLP 大模型 BBT 任务,  本文选择在二分类数据集 SST-2 和四分类数据集 AG’s News 上进行实验.  由
         于基于贝叶斯优化的部分对比算法具有高维瓶颈,  为了更好地对各种方法进行对比,  对比实验部分采用了 50
         (低维)和 500(高维)两种模型参数量进行实验(在所有对比方法进行参数量 50 的实验,  在非贝叶斯优化的对比
   158   159   160   161   162   163   164   165   166   167   168