Page 165 - 《软件学报》2024年第4期
P. 165
钱鸿 等: 基于动态批量评估的绿色无梯度优化方法 1743
型. 本文的实验结果为阈值取 0.5 时的结果(在复现对比方法时, 尝试过各种阈值选择, 阈值为 0.5
时总体性能最好);
(7) Stochastic: 无放回的随机选择批量进行评估.
在所有对比方法中, BOHB、ASHA、Batch-BO 为常见的多保真度背景下的超参数优化算法, Few-shot 为
小样本学习下的常用设定, Average、Threshold 为两种常见的噪声优化方法, Stochastic 为随机使用批量的对比
方法.
上述对比方法中, Few-shot、Average、Stochastic 可以视作对 GRACE 算法的消融. 对于 Few-shot, 这种方
法是大规模语言模型微调任务的常用设置, 即固定使用 1 个批量进行评估; 对于 Average, 该方法是经典的噪
声优化方法之一, 其每次优化时随机使用多个批量样本(实验中使用 3 个), 取均值作为最终的评估结果; 对于
Stochastic, 这种方法类似于梯度优化算法中的随机梯度下降法, 每次优化随机使用一个批量进行评估. 由于
Few-shot、Average、Stochastic 缺少动态确定待评估的批量数量和动态选择有代表性的批量进行评估的过程,
可以视为简化的批量处理策略, 因此这几种算法可视为消融了 GRACE 算法关键部件的退化版算法. 此外, 由
于与绿色低碳目标的抵触, 本文没有设计使用全量数据集的优化方法进行实验. 以 CovType 任务为例, 其使
用全量数据集优化一次约需要消耗 5 000 次评估预算(如表 1 所示, 其数据集大小为 581K, 批量大小为 100, 在
全量数据集上评估即在约 5 810 个批量上评估, 至少需要 5 810 预算); 而在绿色低碳背景下, 该实验的预算只
有 500 次, 无法进行一次完整的优化.
5.2 结果分析
下面结合对比实验结果(如图 7、表 3 所示(表中平均评估时间是指完成一次无梯度优化的迭代过程消耗时
间的均值; 在 SST-2 和 AG’s News 上, 高维指优化任务的维度为 500, 其中, 记录为“−”的数据表示在 36 小时
无法得到实验结果; 低维指优化任务的维度为 50, 后同))、超参数实验结果(如图 8(d)−图 8(h)所示)、算法行
为分析图(如图 8(a)−图(c)所示), 对实验结果分别从绿色低碳、准确性与高效性、可理解性、稳健性这 4 个方
面进行分析.
(1) 绿色低碳.
本文算法和实验的绿色低碳性能主要体现在 3 个方面——任务背景与实验设定绿色低碳、算法运行时间
短、实验不需要大量显卡.
• 在任务背景与实验设定方面, 算法基于批量评估, 相较于评估全量数据, 评估能耗约降低 1 000 倍;
此外, BBT 是大模型提示词微调任务, 大模型内部参数保持不动, 优化时仅微调提示词参数(参数量
小), 符合绿色要求理念;
• 在资源消耗方面, 所有 BBT 单次实验(预算 6 000)的运行时间均不超过 30 分钟, 所有 LightGBM 单次
实验(预算 500)的运行时间均不超过 5 分钟, 算法能在保证精度的同时降低能耗, 减少资源消耗;
• 在实验设备方面, 本文在 BBT 上的全部实验仅使用一张 3080 显卡, 在 LightGBM 上的全部实验均未
使用显卡(仅 8 核 CPU 的 Apple M1 Pro 芯片), 上述较低能耗的实验设定, 符合绿色低碳理念.
(2) 准确性与高效性.
通过在 BBT 和 LightGBM 上的一系列对比实验, 本文从解的质量、收敛效果、运行时间等多个角度说明
GRACE 算法的准确性和高效性.
• 在解的质量方面, 本文提出的 GRACE 算法可以在多个任务上搜索到质量最好的解. 如表 3 所示, 表
中统计了在不同任务中, 不同对比算法寻得的最优解以及平均评估时间. 在 LightGBM 的 4 个数据集
上, GRACE 算法均能寻得性能最好的解; 在 BBT 系列实验中, GRACE 算法也都可以找到高质量的解,
其中, 低维 SST-2 任务虽然只取得第二名的优化性能, 但却取得了最好的泛化性能. 由于为了适应基
于贝叶斯优化的系列算法, 实验中设计了 BBT 的低维实验, 这可能是 AG’s News 低维只取得次优性
能的原因, 但在原始的 AG’s News 任务上(高维), GRACE 仍能取得最好的实验性能;
• 在收敛效果方面, GRACE 算法均展现出较快的收敛速度和较好的收敛效果. 如图 7 所示, 图中展示了