Page 168 - 《软件学报》2024年第4期
P. 168
1746 软件学报 2024 年第 35 卷第 4 期
表 3 对比实验结果表(续 2)
2
数据集 算法 验证集上的 R 指标或准确率 平均评估时间(s)
BOHA 0.9669±0.0001 21.4368
ASHA 0.9650±0.0000 20.1456
BatchBO 0.9656±0.0001 11.1024
Fewshot 0.6978±0.0001 0.4851
Digits(批量大小=100)
Average 0.9712±0.0000 1.4598
Threshold 0.9703±0.0000 1.7442
Stochastic 0.9703±0.0001 0.4407
GRACE (ours) 0.9713±0.0001 1.1679
(a) SST-2 上算法分析 (b) AG’s News 上算法分析 (c) Housing 上算法分析 (d) SST-2 上超参数γ分析
(e) SST-2 上超参数γ泛化分析 (f) SST-2 上超参数γ分析 (g) Housing 上超参数γ泛化分析 (h) Housing 上超参数γ分析
图 8 算法行为分析与超参数分析实验结果图
从图 8(a)−(c)中可以看出: GRACE 算法能够动态控制评估中使用的批量数目, 具体体现在优化前期批量
数的迅速增加以及优化后期的逐渐稳定; 同时, 随着优化后期逐渐出现新的更有代表性的批量, 批量数会缓
慢增加. 这个过程符合算法设计时对批量评估的预期, 即: 既不浪费预算、评估过多重复的区别较小的批量,
又能尽可能多的评估区别较大的批量. 同时, 从图 8(f)、图 8(h)可以看出: 当 GRACE 算法的γ取较为极端的情
况时, 批量数的变化与理想的变化方式稍有出入, 这也是超参数实验中γ取 1.0 或 12.0 时算法的性能会出现轻
微下降的一种解释.
此外, 图 9 展示了不同批量大小的各任务实验结果, 并展示了不同批量大小设置下的批量数动态变化示
意图. 在 SST-2 数据集中, 我们选取了 Few-shot 为{2,4,8,16,32}(对应批量大小为{4,8,16,32,64})的设定; 在
Housing 数据集中, 我们选取了批量大小为{20,50,100,200,500}的设定. 超参数γ均设定为 5.0. 通过实验结果
可以看出: 在大多情况下, 随着批量大小的增大, 算法的性能越来越好. 但实验中也有一些小批量效果好于
大批量的现象, 造成这种现象的原因如下.
• 首先, 不同曲线的优化次数与预算消耗之间的关系并不相同(因此, 实验结果图的横轴并不是“预算消
耗”而是“迭代轮数”). 例如: 假设批量大小为 100 时优化一次的预算消耗为 1, 则批量大小为 200 时优
化一次的预算消耗应该为 2, 这意味着完成一次优化迭代时, 不同的批量大小的预算消耗是不同的;
• 其次, 批量的构造过程是完全随机的, 由于训练数据的数量是有限的, 因此, 不同批量的数据质量是
无法保证的. 而上述实验结果为重复实验 10 次的平均结果, 因此实验结果具有一定的随机性;
• 同时, 出于绿色低碳的考虑, 在前文的对比实验中, 本文并未选取性能较好的大批量, 而是使用了小
批量(批量大小如表 1 所示)完成优化算法, 并针对小批量给出了超参数γ的推荐值, 既能实现较高的准
确率, 又降低了能耗, 以尽可能小的代价最大程度地完成优化目标.