Page 201 - 《软件学报》2025年第9期
P. 201

4112                                                       软件学报  2025  年第  36  卷第  9  期


                 销, 在保护用户数据隐私的前提下完成对大型预训练语言模型的训练. 同传统的信息压缩方法相比, FedBT                              在进行
                 参数传递聚合时, 通过减少需要传递的参数量来节约通信开销, 而不是对原始信息进行压缩. 这样不会丢失参数梯
                 度的原始信息, 从而保证模型的训练效果. 同模型剪枝和蒸馏技术相比, FedBT                    更关注模型的训练过程而不是推断
                 过程. FedBT  通过创建更小的模型来辅助原始大模型的训练, 在推断阶段仍然使用原始模型进行推断, 从而最大限
                 度保证模型的表现效果. 本文的前期探索成果工作发表在                   IJCAI 2023 [23] 上, 研究了  FedBT  在进一步预训练场景下
                 的算法框架. 本文在文献       [23] 的基础上, 进一步深入研究, 并提出了新技术和内容: 联邦学习全链路训练过程的数
                 学建模与理论分析、模型在联邦学习场景进行高效微调的循环采样算法和对应框架设计、ViT                                图像模型在联邦
                 学习场景中进一步预训练的策略以及各类训练策略的对比分析实验.
                    本文的主要贡献如下.
                    (1) 本文针对联邦学习场景中资源受限的客户端难以训练大型预训练模型的问题, 设计了一种适用于联邦学
                 习环境的高效     BERT  模型训练框架     FedBT. 该框架能够根据任务需求灵活选择            BERT  模型的不同参数进行训练,
                 并将更新的那部分参数发送至服务端进行聚合, 从而显著降低客户端的计算与通信成本. 在保护用户数据隐私的
                 同时, 成功实现了对大型预训练语言模型的高效训练.
                    (2) 本文引入了渐进式训练算法和深层采样映射算法, 协助                 FedBT  在客户端上进行进一步预训练. 同时, 循环
                 递减训练算法则辅助        FedBT  在客户端上执行下游任务的微调. 在进一步预训练场景下, FedBT                在客户端上构建规
                 模较小的模型, 并结合算法对服务端全局模型浅层                Transformer 的高效训练. 在下游任务微调场景下, FedBT         在客
                 户端上结合算法, 实现对服务端全局模型的深层               Transformer 的高效训练. FedBT  在聚合过程仅将所更新参数上传
                 到服务端进行聚合, 从而显著降低通信开销.
                    (3) 本文对客户端的计算和通信开销进行了理论分析, 并在预训练阶段和下游任务微调阶段都进行了实验, 验
                 证所提出的框架      FedBT  的有效性. 在预训练阶段, FedBT     将客户端的计算和通信开销分别降低至原来的                  34.31%
                 和  7.04%. 在下游任务微调阶段, FedBT    将客户端的计算和通信开销分别降低至原来的                 48.26%  和  20.19%. 并且两
                 种场景下的模型精度都接近传统联邦学习的水平.
                    本文第   1  节介绍本文提及方法所需的背景知识和主要概念. 第                2  节定义在资源有限场景下的模型训练问题.
                 第  3  节对本文提出的    FedBT  在进一步预训练场景下的算法框架进行详细的描述, 这部分的相关工作内容我们曾
                 发表在   IJCAI 2023  上  [23] . 第  4  节对本文提出的  FedBT  在下游任务微调场景下的算法框架进行详细的描述. 第         5  节
                 通过实验验证本文方法的有效性. 最后第             6  节总结全文并进行展望.

                 1   背景知识

                    本文探讨的是联邦学习场景下, 在资源有限的客户端上对                   BERT  模型的进一步预训练和下游任务微调, 进一
                 步预训练是指将预训练语言模型在专业领域的语料上再次进行无标注的预训练, 增强通用模型在专业领域任务上
                 的性能; 下游任务微调是指对预训练语言模型调整不同的分类层并进行训练, 来使模型可以解决具体的下游任务.
                 下面对这些相关概念和相关基本知识进行介绍.

                 1.1   联邦学习
                    联邦学习    (federated learning) 是一种分布式机器学习方法, 最早由      Google 于  2016  年提出, 并于  2017  年正式
                 发表相关论文     [5] . 作为一种分布式学习方法, 联邦学习在多个本地设备             (客户端) 上进行模型训练, 分布式更新模型
                 的参数, 并在中央服务器上通过参数聚合获得一个全局模型. 这一方法克服了集中式学习中的数据隐私和安全问
                 题, 使得模型能够在分散的数据集上进行训练, 而无需将数据集中存储. 联邦学习的具体训练过程如下: 在第                                t 轮,
                 联邦服务器将上一轮的全局模型参数             w t−1  广播发送给各个客户端, 每个客户端在获取初始模型参数后会在本地使
                                                                 t
                 用其持有的私有数据集训练模型并得到相应的本地模型参数                     w , 接着将本地模型参数而不是原始训练数据发送给
                                                                 i
                                                                                           w  来更新全局模
                                                                                             t
                 联邦服务器. 在从各个客户端接收到本地模型参数后, 联邦服务器对这些参数进行聚合操作得到
                 型, 再将更新后的全局模型参数广播发送给各个客户端. 上述这一过程会多轮次重复进行直到满足要求即停止, 如
   196   197   198   199   200   201   202   203   204   205   206