Page 164 - 《软件学报》2024年第4期
P. 164

1742                                                       软件学报  2024 年第 35 卷第 4 期

         方法上进行参数量 500 的实验;  原始任务          [16] 中的参数量是 500).  对于批量大小的设置,  本文按照 Few-shot 的
         有关设定,  设计批量大小与分类任务的类别数成比例(即在 SST-2 上的批量大小为 8,  在 AG’s News 上的批量
         大小为 16).  类似地,  在 LightGBM 模型上进行了两个多分类任务和一个回归任务,  数据集大小涉及 3 个不同
         的数量级.
             在基于语言模型即服务的黑盒微调(BBT)任务上,  使用预训练的 RoBERTa LARGE 模型                      [16] ,  通过优化器
         对维度为 500 或 50 的提示词进行微调优化,  进而完成一系列自然语言处理任务(见表 1).  在机器学习
         LightGBM 模型  [21] 超参数调优任务上,  通过优化如表 2 所示的 11 个模型超参数,  进而使得 LightGBM 模型能
         在各任务上得到较好的效果(表中连续类型的超参数,  优化时保留 4 位小数;  对数连续类型的超参数,  在对数
         空间上优化,  优化时保留 5 位小数).
                                   表 2  LightGBM 超参数优化任务的解空间表
                       LightGBM 超参数         含义           数值类型     解空间(优化时使用的范围)
                        learning_rate       学习率            连续          [0.05,0.55]
                        n_estimators    boosting 迭代次数      离散      在区间[50,350]内的整数
                        min_split_gain   执行节点分裂的最小增益       连续            [0,1]
                       min_child_sample   一个叶子上的最小数据量      离散      在区间[5,105]内的整数
                                                                         −4
                                                                              −1
                       min_child_weight   一个叶子上的最小海森和    对数连续         [1×10 ,1×10 ]
                         max_depth       树的最大深度            离散           {3,4,5,6}
                         num_leaves    树上的叶子节点个数           离散      在区间[5,30]内的整数
                         subsample   随机特征参数,  缓解过拟合        连续            [0.8,1]
                       colsample_bytree   随机特征参数,  缓解过拟合   连续            [0.8,1]
                                                                              3
                                                                          −2
                         reg_alpha      L 1 正则化超参数       对数连续         [1×10 ,1×10 ]
                                                                          −2
                                                                              3
                         reg_lambda     L 2 正则化超参数       对数连续         [1×10 ,1×10 ]
             在所有对比实验中,  超参数γ的取值均为 5.0.  实验中,  对于基于演化策略的算法,  种群大小分别设置为 20
         (BBT 实验)或 5(LightGBM 实验);  对于 GRACE 算法,  每隔 600 次(BBT 实验)或 25 次(LightBGM 实验)更新一
         次批量相似树并向树中添加一个新批量,  在评估距离时,  参数 T 取值为 100(BBT 实验)或 10(LightBGM 实验).
         对于所有的对比实验和超参数实验,  均使用随机种子 21~30 进行 10 次随机实验,  记录随机实验的均值和方差
         信息.  算法运行过程中,  我们记录并绘制各算法找到的当前最优解对应的结果.  对于 BBT 任务,  评价指标均
         与原文   [16] 保持一致,  使用默认的损失函数和准确率;  对于 LightGBM 超参数优化任务,  均使用 Sklearn 自带的
                                                           2
                                                    2
         评估函数进行评估,  其中,  回归数据集 Housing 采用 R 指标(R  score)进行评估,  分类数据集 CovType 和 Digits
         采用准确率(accuracy)进行评估.  在 BBT 系列实验中,  预算选取为 6 000,  每消耗 600 预算时,  在全量数据集和
         测试集上测试一次性能;  在 LightGBM 系列实验中,  预算选取为 500,  每消耗 50 预算时,  在全量数据集上测试
         一次性能.
             在对比实验中,  本文将 GRACE 与以下 7 种算法进行了比较.
             (1)  BOHB [35] :  一种基于 Hyperband 调度算法 [57,58] 的多保真度优化算法,  使用基于 TPE 的代理模型有效
                 地分配采样配置;
             (2)  ASHA [36] :  一种基于 Successive Halving 资源分配算法的多保真度优化算法,  利用早停机制将更多资
                 源分配给有前途的配置;
             (3)  Batch-BO [59] :  一种并行的高保真度贝叶斯优化方法;
             (4)  Few-shot [16,60] :  在小样本的设定下,  仅使用少量训练数据或固定的批量优化模型.  具体而言,  在分
                 类任务中,  小样本训练集中包含等量的各类别样本;  在回归任务中,  从全量训练集中随机抽取少量
                 样本构成小样本训练集;
             (5)  Average [41,61] :  一种噪声优化算法,  通过重新采样并取多个样本评估的平均值来减少评估误差的影
                 响.  在实验中,  重复采样了 3 个批量;
             (6)  Threshold [32] :  一种噪声优化方法,  通过指定阈值来控制无梯度优化算法的解的更新.  即:  在优化迭
                 代过程中,  若当前解比上次迭代解的性能提升超过阈值,  则使用这组解更新无梯度优化器内部的模
   159   160   161   162   163   164   165   166   167   168   169