Page 168 - 《软件学报》2024年第4期
P. 168

1746                                                       软件学报  2024 年第 35 卷第 4 期

                                          表 3   对比实验结果表(续 2)
                                                            2
                            数据集           算法       验证集上的 R 指标或准确率       平均评估时间(s)
                                          BOHA          0.9669±0.0001      21.4368
                                          ASHA          0.9650±0.0000      20.1456
                                         BatchBO        0.9656±0.0001      11.1024
                                         Fewshot        0.6978±0.0001       0.4851
                       Digits(批量大小=100)
                                         Average        0.9712±0.0000       1.4598
                                         Threshold      0.9703±0.0000       1.7442
                                         Stochastic     0.9703±0.0001       0.4407
                                       GRACE (ours)     0.9713±0.0001       1.1679









              (a) SST-2 上算法分析          (b) AG’s News 上算法分析           (c) Housing 上算法分析           (d) SST-2 上超参数γ分析









            (e) SST-2 上超参数γ泛化分析        (f) SST-2 上超参数γ分析       (g) Housing 上超参数γ泛化分析     (h) Housing 上超参数γ分析
                                   图 8   算法行为分析与超参数分析实验结果图

             从图 8(a)−(c)中可以看出:  GRACE 算法能够动态控制评估中使用的批量数目,  具体体现在优化前期批量
         数的迅速增加以及优化后期的逐渐稳定;  同时,  随着优化后期逐渐出现新的更有代表性的批量,  批量数会缓
         慢增加.  这个过程符合算法设计时对批量评估的预期,  即:  既不浪费预算、评估过多重复的区别较小的批量,
         又能尽可能多的评估区别较大的批量.  同时,  从图 8(f)、图 8(h)可以看出:  当 GRACE 算法的γ取较为极端的情
         况时,  批量数的变化与理想的变化方式稍有出入,  这也是超参数实验中γ取 1.0 或 12.0 时算法的性能会出现轻
         微下降的一种解释.
             此外,  图 9 展示了不同批量大小的各任务实验结果,  并展示了不同批量大小设置下的批量数动态变化示
         意图.  在 SST-2 数据集中,  我们选取了 Few-shot 为{2,4,8,16,32}(对应批量大小为{4,8,16,32,64})的设定;  在
         Housing 数据集中,  我们选取了批量大小为{20,50,100,200,500}的设定.  超参数γ均设定为 5.0.  通过实验结果
         可以看出:  在大多情况下,  随着批量大小的增大,  算法的性能越来越好.  但实验中也有一些小批量效果好于
         大批量的现象,  造成这种现象的原因如下.
             •  首先,  不同曲线的优化次数与预算消耗之间的关系并不相同(因此,  实验结果图的横轴并不是“预算消
                耗”而是“迭代轮数”).  例如:  假设批量大小为 100 时优化一次的预算消耗为 1,  则批量大小为 200 时优
                化一次的预算消耗应该为 2,  这意味着完成一次优化迭代时,  不同的批量大小的预算消耗是不同的;
             •  其次,  批量的构造过程是完全随机的,  由于训练数据的数量是有限的,  因此,  不同批量的数据质量是
                无法保证的.  而上述实验结果为重复实验 10 次的平均结果,  因此实验结果具有一定的随机性;
             •  同时,  出于绿色低碳的考虑,  在前文的对比实验中,  本文并未选取性能较好的大批量,  而是使用了小
                批量(批量大小如表 1 所示)完成优化算法,  并针对小批量给出了超参数γ的推荐值,  既能实现较高的准
                确率,  又降低了能耗,  以尽可能小的代价最大程度地完成优化目标.
   163   164   165   166   167   168   169   170   171   172   173