Page 155 - 《软件学报》2024年第4期
P. 155
钱鸿 等: 基于动态批量评估的绿色无梯度优化方法 1733
The growing complexity of machine learning models and the expanding size of training datasets result in escalating time and
computational costs for accurate and stable solution evaluation, contradicting the principle of green and low-carbon machine learning and
optimization. In view of this, this study proposes a green derivative-free optimization framework with dynamic batch evaluation
(GRACE). Based on the similarity of training subsets, GRACE adaptively and dynamically adjusts the sample size used for evaluating
solutions during the optimization process, thereby ensuring optimization performance while reducing optimization costs and
computational expenses, achieving the goal of green, low-carbon, and efficient optimization. Experiments are conducted on tasks such as
black-box tuning of language-model-as-a-service and hyper-parameter optimization of models. By comparing with the comparative
methods and the degraded versions of GRACE, the effectiveness, efficiency, and green and low-carbon merits of GRACE are verified. The
results also show the hyper-parameter robustness of GRACE.
Key words: derivative-free optimization; evolutionary learning; green and low-carbon; dynamic batch evaluation
机器学习模型不断发展, 为智能系统应用开辟了新的可能性 [1,2] , 这些模型在各个领域均取得了较好的性
能, 包括图像理解 [3−5] 、语音识别 [6,7] 、自然语言处理 [8−11] 、强化学习 [12−14] 等. 随着机器学习的快速发展, 模型
的参数量正在急剧上升, 训练模型所需的数据集体量越来越大, 资源需求也不断增加. 例如近年来语言大模
型的兴起, 自然语言处理(natural language processing, NLP)领域中的模型规模扩大, 复杂度显著增加 [8,9,15] .
大模型具有成百上千亿参数量, 并且需要大量的计算资源进行训练和评估 [15−17] . 虽然这些模型在各种 NLP
任务上取得了令人瞩目的性能, 但其模型训练与优化过程却极具挑战性并且计算成本高昂.
在此背景下, 语言模型即服务(language-model-as-a-service, LMaaS)等新范式被提出 [15,16] . LMaaS 基于提
示词微调(prompt fine-tune)的思想, 提出了一种新颖的解决方案, 即黑盒微调(black-box tuning, BBT) [13] . BBT
将预训练语言模型放在服务端, 并将其视作一种只提供前向推理 API 接口的服务, 通过在客户端调用接口,
在本地微调表征提示词(prompt)的特定参数 [18,19] , 即可在不更改大模型结构以及无需重新训练大模型的情
况下, 绿色、有效地完成下游特定任务上的推理. BBT 以其良好的性能和绿色低能耗的特点, 已被广泛应用
在问答、情感分析和文本分类 [20] 等 NLP 任务中. 在语言模型即服务 [12,13] 、模型超参数优化 [21] 等任务中, 因
解空间到性能目标空间之间的映射关系复杂多变, 难以显式地构建出需要优化的目标函数. 例如, 在语言模
型即服务任务中, 模型被部署在远程的服务端, 模型的评估结果仅可通过调用推理接口获得, 待优化的提示
词参数与模型输出的性能指标之间的关系是难以用数学表达式明确刻画的. 此时, 常采用无梯度优化方法
[22−24] 完成优化, 即以采样与试错的方式来搜索参数空间, 进而找到最优的参数配置.
无梯度优化方法 [22−24] 通过在解空间(solution space)中采样解并对解的质量(即目标函数值)进行评估来实
现优化, 其优化过程不依赖目标函数的梯度或者海森矩阵等信息. 这类优化方式的优点是具有以一定概率全
局寻优的潜力, 可以处理不可微、不连续、非凸等复杂优化问题, 只要能够对解的质量进行评估即可使用该
类优化方法, 因而具有一定的通用性 [23] . 大多数无梯度优化方法具有相似的算法流程, 它们首先在解空间中
随机采样解来初始化解集合, 在对采样到的解进行目标函数值评估后, 通过无梯度优化方法显式或隐式地建
立关于潜在目标函数的代理模型或采样模型, 然后根据某种机制从该模型中采样新解加以评估, 这些已评估
的解则会用来更新模型. 无梯度优化方法迭代采样与更新模型, 以期能够不断提升解的质量.
通过无梯度优化的过程可以看出, 解的准确、高效评估对无梯度优化算法至关重要. 完成一次解的质量
评估常需在整个数据集上完整运行一次模型, 且优化过程有时要求大量评估解的质量. 在如今模型越来越
复杂、训练数据集体量越来越庞大的背景下, 解的评估速度显著变慢、计算代价不断攀升, 代理模型或采
样模型更新所需能耗迅速增长, 无梯度优化对解空间搜索的时间成本和计算资源需求日益增加. 尽管更大
的训练集可以提升解的评估的准确性与稳定性, 但会导致更高的评估成本 [25−27] . 因此, 如何在不损害无梯
度优化算法性能的条件下, 设计算法自适应动态调整评估解所用的样本, 从而减小评估所用的样本量, 降
低评估代价, 保持评估的准确与稳定性, 是当前亟需解决的关键问题.
为了降低评估代价、使无梯度优化绿色低碳, 一方面, 在解的评估时应该选择尽可能小的训练数据子
集, 以缩短评估时间、降低评估能耗; 另一方面, 为了实现较好的优化性能, 需要使用尽可能大的训练数据
子集进行评估, 并且要让优化算法见到足够多的训练数据, 达到准确且稳定的解的评估. 类似的困难也出