Page 158 - 《软件学报》2024年第4期
P. 158

1736                                                       软件学报  2024 年第 35 卷第 4 期

         而形成新一代的种群.  与自然进化类似,  由于变异和杂交产生的新个体并不总是适应环境的,  自然选择在这
         个过程中发挥了关键作用,  即:  一般只允许适应性强的个体(评估值较好的解)存活,  淘汰适应性较差的个体
         (评估值较差的解).  幸存的个体形成一个新的种群代(子代),  循环迭代上述过程,  直至收敛到满意的解.
             相较于普通的演化策略,  协方差矩阵自适应演化策略(covariance  matrix adaptation evolution  strategy,
         CMA-ES) [45] 是一种考虑解空间各维度相关性的高效演化策略,  具有更快的收敛速度和更好的收敛效果.  演化
         策略通常使用高斯分布建模采样模型,  从由均值向量和协方差矩阵表示的多元高斯分布中采样,  进而生成新
         的候选解种群.  普通的演化策略常通过将随机变异向量与均值向量相加,  并使用固定不变的协方差矩阵来控
         制搜索种群的分布. CMA-ES 算法对这一过程进行改进,  使用随迭代自适应变化的协方差矩阵控制搜索分布,
         通过动态的协方差矩阵表示搜索空间中不同变量之间的相关性,  使优化算法能够更快收敛找到优质解.  此外,
         CMA-ES 算法在保留种群高质量候选解的同时,  还会生成特征丰富多样的候选解,  进而有效地权衡对解空间
         的探索与对已有解信息的利用. CMA-ES 算法还具有处理高维优化和噪声优化问题的潜力.  因此,  在本文实验
         部分,  我们选用 CMA-ES 算法作为 GRACE 框架中无梯度优化的具体实施算法.

         3    问题定义
         3.1   使用全量样本进行解评估的优化

             在介绍本文提出的算法框架之前,  首先对要解决的问题进行形式化描述.  基于语言模型即服务的提示词
         黑盒微调    [15,16] 、模型超参数优化等任务可抽象为如下优化问题:
                              θ *  =  argmin  d ((θ), train ) =  argmin  d f(θ, train ),
                                                                Θ
                                         Θ
                                       θ ∈⊆                   θ ∈⊆
         其中,  (⋅)为模型训练过程中使用的损失函数,  ((θ), train )是解θ配置下的模型(θ)在全量训练集 train =
                N
           x
             y
         {( , )} 上的损失.  简便起见,  可以将上述损失写成 f(θ, train )的形式, f(θ, train )即是优化问题的目标函数,  优
              i
            i
                 1
                i=
                                                       *
         化的目标为找到能够在全量训练集 train 上表现最好的解θ .
             为了快速方便地进行评估,  通常将整个训练集划分为若干个相同大小的被称为批量(batch)的训练子集进
         行评估,  即:  首先,  将整个训练数据集 train 按照特定批量大小 B(即每个批量的元素数量为 B)分成 K 个批量
         { 1 , 2 ,…, K },  其中, K 是满足 K×B 小于全量训练集 train 元素数量的最大整数;  然后,  依次使用每个批量来评
         估解,  得到 K 个评估值;  最后,  将每个批量评估结果的平均值(通常是指模型训练过程中的损失或准确率)反馈
         给优化器,  作为当前参数下模型在整个训练数据集上的评估结果.  使用批量进行模型训练和参数优化的过程
         如图 2(a)所示.






                                         (a)  使用全量样本进行解评估的优化









                                       (b)  使用部分批量样本进行解评估的优化
                   图 2    全量样本进行解评估的无梯度优化 vs.部分批量样本进行解评估的无梯度优化
   153   154   155   156   157   158   159   160   161   162   163