Page 200 - 《软件学报》2025年第9期
P. 200

王鑫澳 等: 基于联邦学习的       BERT  模型高效训练框架                                             4111


                 task fine-tuning is comparable to traditional federated learning methods that train the entire model.
                 Key words:  federated learning; pre-trained language model (PLM); further pre-training; downstream fine-tuning

                    近年来, 随着人工智能技术的迅猛发展, 人工智能模型的性能和复杂度不断提升. 从最初的简单线性模型到深
                 度学习神经网络, 再到最近的大型预训练语言模型                (PLM), 模型的能力得到了显著增强, 可广泛应用于图像识别、
                 自然语言处理和语音识别等多个领域             [1,2] . 然而, 这些先进的人工智能模型的成功很大程度上依赖于大量高质量的
                 数据. 数据成为训练模型的基石, 其中包含丰富信息, 使模型能够学习到复杂的模式和规律. 随着模型的不断发展,
                 对可靠、丰富数据的需求也随之增加. 在这一背景下, 数据的重要性愈发凸显, 保证数据的质量和数量, 同时保护
                 其中的隐私信息, 成为人工智能领域急待解决的问题                [3,4] .
                    为了解决数据隐私性问题, 联邦学习            [5] 等新兴技术崭露头角, 这些技术的目标是在保护个人隐私的前提下进
                 行模型训练. 与传统的集中式训练不同, 联邦学习将模型的训练过程分布在多个设备                           (客户端) 上. 各客户端利用
                 本地数据进行模型训练, 但不将数据传输至中央服务器                  (服务端). 相反, 它们将模型的更新信息         (如参数或梯度) 发
                 送至服务端, 服务端对这些信息进行聚合, 从而更新全局模型. 联邦学习的引入有效解决了数据隐私保护和数据中
                 心化的问题, 同时充分利用多方数据, 提高了模型的泛化性和准确率. 在联邦学习的框架下, 数据隐私得到了有效
                 保护, 大大增加了参与方数据共享合作的意愿和能力. 联邦学习可广泛应用于医疗、金融、交通、工业等多个领
                 域, 为各行业带来更优越的数据管理和应用体验. 联邦学习可以帮助企业和机构更好地利用数据, 为人类社会的发
                 展提供更有效的服务.
                    然而, 在当前的联邦学习训练方法中, 通常需要高昂的通信和计算资源. 客户端设备受限于有限的硬件资源和
                 网络带宽, 一般只能提供有限的通信和计算能力. 这使得在联邦学习框架内训练复杂模型变得异常困难, 尤其是训
                                                                               [6]
                 练那些在自然语言处理任务中取得显著进展的预训练语言模型                      (PLM), 如  ELMo , GPT , BERT 和 [8]  RoBERTa [9]
                                                                                     [7]
                 等, 通常需要上万秒的预训练时间和每轮数百               MB  的通信开销. 这些模型在海量通用领域语料上进行了充分的预
                 训练, 可以在专业领域语料上对模型进行进一步的预训练来增强专业任务上的表现                           [10] , 或者在具体下游任务数据
                 上微调模型来适配不同任务          [11] . 然而, 这些数据通常涉及隐私信息, 无法集中收集用于模型训练. 因此, 急需一种
                 技术将联邦学习与大型预训练语言模型的训练相结合.
                    传统的联邦学习任务中, 主要集中在较小的数据集上, 并使用相对较小的网络模型进行训练, 典型的例子是
                 在  CIFAR  数据集  [12] 上使用  ResNet [13] 网络架构进行训练. 相比之下, 基于  Transformer [14] 架构模型的研究较为有限.
                 为了使更复杂的模型能够适应联邦学习客户端有限的硬件资源和通信带宽, 先前的研究大致可以划分为以下                                  3 类  [15] .
                    (1) 信息压缩: 信息压缩会使用更少的比特位来表示客户端需要传输给服务端进行聚合的梯度或者参数, 从而
                 达到节约通信开销的目的, 经典的例子是量化技术                [16−18] 和稀疏化技术  [19,20] .
                    (2) 模型剪枝: 通过模型剪枝技术, 可以获得更加紧凑、轻量化的模型, 适用于在资源有限的设备上进行推断.
                 模型剪枝的基本思想是通过去除冗余的连接或参数来减小模型的规模, 从而降低客户端上的计算成本                                 [21] .
                    (3) 模型蒸馏: 模型蒸馏    [22] 是一种用于压缩和精简深度神经网络的技术, 旨在将大型、复杂的模型转化为小型、
                 高效的模型, 同时保持其性能. 这一技术的背后理念是通过在训练中传递一个模型的知识                            (教师模型) 给另一个模
                 型  (学生模型), 来实现模型的压缩, 然后使用这个小模型来进行推断, 从而降低客户端上的计算成本.
                    尽管信息压缩在减少通信成本方面发挥了作用, 但并未解决联邦学习中的主要瓶颈, 即客户端有限的计算资
                 源无法支持对复杂模型的训练. 同时, 虽然模型剪枝和知识蒸馏技术能够创建小型而准确的模型以加速推断过程,
                 但在训练大型模型方面效果相对有限. 因此, 将复杂的网络模型, 特别是基于                      Transformer 架构的大型模型, 部署在
                 联邦学习场景下进行训练仍然面临着许多需要解决的问题.
                    为了解决在联邦学习场景下无法高效训练大型预训练模型的问题, 本文提出了一种联邦学习场景下                                 BERT  模
                 型的高效训练框架——FedBT (efficient framework for BERT model training based on federated learning). 该框架基
                 于渐进式训练、采样映射和循环递减训练等算法, 能够根据任务分类在联邦学习的客户端上训练                                BERT  模型的不
                 同部分参数, 并仅将所更新的部分参数上传到服务端进行聚合. 这一方法有助于降低客户端的计算开销和通信开
   195   196   197   198   199   200   201   202   203   204   205