Page 154 - 《软件学报》2024年第4期
P. 154
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2024,35(4):1732−1750 [doi: 10.13328/j.cnki.jos.007017] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
∗
基于动态批量评估的绿色无梯度优化方法
2
3
1,2
3
1,2
钱 鸿 , 舒 翔 , 孙天祥 , 邱锡鹏 , 周爱民
1 (华东师范大学 上海智能教育研究院, 上海 200062)
2 (华东师范大学 计算机科学与技术学院, 上海 200062)
3 (复旦大学 计算机科学技术学院, 上海 200438)
通信作者: 周爱民, E-mail: amzhou@cs.ecnu.edu.cn
摘 要: 在基于语言模型即服务的提示词黑盒微调、机器学习模型超参数调节等优化任务中, 由于解空间到性能
指标之间的映射关系复杂多变, 难以显式地构建目标函数, 故常采用无梯度优化方法来实现寻优. 解的准确、稳定
评估是有效实施无梯度优化方法的关键, 完成一次解的质量评估常要求在整个数据集上完整运行一次模型, 且优
化过程有时需要大量评估解的质量. 随着机器学习模型复杂度以及训练样本量的不断增加, 准确、稳定的解的质
量评估时间成本与计算代价越来越高昂, 这与绿色低碳机器学习与优化理念背道而驰. 有鉴于此, 提出了一种基
于动态批量评估的绿色无梯度优化方法框架(green derivative-free optimization with dynamic batch evaluation,
GRACE), 基于训练子集的相似性, 在优化过程中自适应动态调节评估解时使用的样本量, 使得 GRACE 在保证优
化性能的同时, 降低优化成本与代价, 达到绿色低碳高效的目标. 在语言模型即服务提示词黑盒微调、模型超参数
优化等实际任务上进行了实验验证, 通过与一系列对比方法以及 GRACE 消融退化版算法进行比较分析, 表明了
GRACE 的有效性、高效性、绿色低碳性. 超参数分析结果表明了其具备超参数稳健性.
关键词: 无梯度优化; 演化学习; 绿色低碳; 动态批量评估
中图法分类号: TP18
中文引用格式: 钱鸿, 舒翔, 孙天祥, 邱锡鹏, 周爱民. 基于动态批量评估的绿色无梯度优化方法. 软件学报, 2024, 35(4):
1732−1750. http://www.jos.org.cn/1000-9825/7017.htm
英文引用格式: Qian H, Shu X, Sun TX, Qiu XP, Zhou AM. Green Derivative-free Optimization Method with Dynamic Batch
Evaluation. Ruan Jian Xue Bao/Journal of Software, 2024, 35(4): 1732−1750 (in Chinese). http://www.jos.org.cn/1000-9825/7017.htm
Green Derivative-free Optimization Method with Dynamic Batch Evaluation
3
1,2
1,2
3
2
QIAN Hong , SHU Xiang , SUN Tian-Xiang , QIU Xi-Peng , ZHOU Ai-Min
1 (Shanghai Institute of AI Education, East China Normal University, Shanghai 200062, China)
2 (School of Computer Science and Technology, East China Normal University, Shanghai 200062, China)
3 (School of Computer Science, Fudan University, Shanghai 200438, China)
Abstract: Derivative-free optimization is commonly employed in tasks such as black-box tuning of language-model-as-a-service and
hyper-parameter tuning of machine learning models, where the mapping between the solution space of the optimization task and the
performance indicator is intricate and complex, making it challenging to explicitly formulate an objective function. Accurate and stable
evaluation of solutions is crucial for derivative-free optimization methods. The evaluation of the quality of a solution often requires
running the model on the entire dataset, and the optimization process sometimes requires a large number of evaluations of solution quality.
∗ 基金项目: 国家自然科学基金(62106076); 上海市“科技创新行动计划”人工智能科技支撑专项(22511105901); CCF-蚂蚁科研
基金(CCF-AFSG RF20220205); 上海市自然科学基金(21ZR1420300)
本文由“绿色低碳机器学习研究与应用”专题特约编辑封举富教授、俞扬教授、刘淇教授推荐.
收稿时间: 2023-05-15; 修改时间: 2023-07-07; 采用时间: 2023-08-24; jos 在线出版时间: 2023-09-11
CNKI 网络首发时间: 2023-11-24