Page 219 - 《软件学报》2025年第9期
P. 219

4130                                                       软件学报  2025  年第  36  卷第  9  期


                    表  7  展示了本地模型是其他尺寸的对比情况, FedBT           框架在下游任务微调场景下, 客户端模型             Transformer 层
                                                                                     ,
                                                                                          ,
                 的数量   L k , 更多的是影响模型的表现效果, 而不是模型计算资源, 本节将对比分析                  L k = 6 L k = 8 L k = 10 这  3  种模
                 型, 分别记作   FedBT-6, FedBT-8, FedBT-10. 针对每种模型, 对比分析   FedBT-Map, FedBT\Add  两种情况. 对以上模
                 型使用   ChemProt 数据集, 在联邦场景下对上述各种模型进行微调之后, 可以得到各种策略模型在下游任务上的准
                 确率, 本地计算开销与联邦聚合通信开销.

                                       表 7 下游任务微调场景下的客户端模型规模对比实验

                           模型                  计算开销 (s)               通信开销 (MB)              准确率
                        FedBT-6-Map            94.62 (27.20%)         87.95 (20.19%)         0.576 2
                        FedBT-6\Add           93.88 (26.98%)          28.37 (6.51%)          0.515 4
                         FedBT-6               94.62 (27.20%)         87.95 (20.19%)         0.601 9
                        FedBT-8-Map           129.86 (37.33%)         87.95 (20.19%)         0.695 0
                        FedBT-8\Add           111.86 (32.15%)         28.37 (6.51%)          0.593 5
                         FedBT-8              129.86 (37.33%)         87.95 (20.19%)         0.678 6
                       FedBT-10-Map           148.28 (42.62%)         87.95 (20.19%)         0.750 9
                       FedBT-10\Add           129.85 (37.32%)         28.37 (6.51%)          0.732 8
                         FedBT-10             148.28 (42.62%)         87.95 (20.19%)         0.767 4
                        FedBT-Map             167.89 (48.26%)         87.95 (20.19%)         0.764 5
                        FedBT\Add             148.29 (42.62%)         28.37 (6.51%)          0.770 8
                        FedBT (ours)          167.89 (48.26%)         87.95 (20.19%)         0.794 2

                    由表  7  可知, 客户端模型    Transformer 层的数量  L k , 更多的是影响模型的表现效果, 而不是模型计算资源, 相
                 比于减少客户端网络层数所节约的计算资源, 增加网络层数会更好地提升模型的表现效果. 在训练过程中使用浅
                 层采样构建本地模型这一策略, 在模型本地模型层数较浅时对于提升模型表现效果有一定影响, 但是当本地模型
                 的  Transformer 层数较多时, 原始的网络结构已经能很好地捕捉数据信息, 进行浅层采样映射会影响模型效果.
                    综上所述, FedBT   框架结合渐进式训练算法, 深层采样映射算法和循环递减训练算法, 能够在充分减少客户端
                 的训练过程中的计算开销, 联邦聚合过程中的通信开销的前提下, 保证模型的训练效果, 高效地完成                              BERT  模型的
                 进一步预训练和下游任务微调, 实现同传统联邦学习训练完整模型接近的精确度.

                 6   总结与展望

                    本文针对联邦学习场景下客户端资源受限, 无法完成需要大量计算资源和通信资源的模型训练的问题, 提出
                 了一种联邦学习场景下        BERT  模型的高效训练框架       FedBT. 此框架基于渐进式训练, 采样映射和循环递减训练等
                 算法, 可以根据任务分类在联邦学习的客户端上训练                 BERT  模型的不同部分参数, 从而节约客户端的通信开销和
                 计算开销, 进而在保护用户隐私数据的前提下完成对大型预训练语言模型的训练. 然而本文所研究的                                 BERT  模型
                 是一种自编码式      (autoencoder) 的预训练语言模型, 对于自回归式的预训练语言模型              (autoregressive), 如  GPT  之类
                 的生成式语言模型, 在联邦学习场景下的应用没有进行深入研究, 这将是本文之后的一个研究方向.

                 References:
                  [1]   Wang NY, Ye YX, Liu L, Feng LZ, Bao T, Peng T. Language models based on deep learning: A review. Ruan Jian Xue Bao/Journal of
                     Software, 2021, 32(4): 1082–1115 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/6169.htm [doi: 10.13328/j.cnki.jos.
                     006169]
                  [2]   Song XM, Nie LQ, Shen HT, Tian Q, Huang H. Special topic: Research on multimodal learning integrated with pre-training techniques
                     preface. Ruan Jian Xue Bao/Journal of Software, 2023, 34(5): 1997–1999 (in Chinese with English abstract). http://www.jos.org.cn/1000-
                     9825/6776.htm [doi: 10.13328/j.cnki.jos.006776]
                  [3]   Gu YH, Bai YB. Survey on security and privacy of federated learning models. Ruan Jian Xue Bao/Journal of Software, 2023, 34(6):
                     2833–2864 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/6658.htm [doi: 10.13328/j.cnki.jos.006658]
                  [4]   Tan ZW, Zhang LF. Survey on privacy preserving techniques for machine learning. Ruan Jian Xue Bao/Journal of Software, 2020, 31(7):
   214   215   216   217   218   219   220   221   222   223   224