Page 219 - 《软件学报》2025年第9期
P. 219
4130 软件学报 2025 年第 36 卷第 9 期
表 7 展示了本地模型是其他尺寸的对比情况, FedBT 框架在下游任务微调场景下, 客户端模型 Transformer 层
,
,
的数量 L k , 更多的是影响模型的表现效果, 而不是模型计算资源, 本节将对比分析 L k = 6 L k = 8 L k = 10 这 3 种模
型, 分别记作 FedBT-6, FedBT-8, FedBT-10. 针对每种模型, 对比分析 FedBT-Map, FedBT\Add 两种情况. 对以上模
型使用 ChemProt 数据集, 在联邦场景下对上述各种模型进行微调之后, 可以得到各种策略模型在下游任务上的准
确率, 本地计算开销与联邦聚合通信开销.
表 7 下游任务微调场景下的客户端模型规模对比实验
模型 计算开销 (s) 通信开销 (MB) 准确率
FedBT-6-Map 94.62 (27.20%) 87.95 (20.19%) 0.576 2
FedBT-6\Add 93.88 (26.98%) 28.37 (6.51%) 0.515 4
FedBT-6 94.62 (27.20%) 87.95 (20.19%) 0.601 9
FedBT-8-Map 129.86 (37.33%) 87.95 (20.19%) 0.695 0
FedBT-8\Add 111.86 (32.15%) 28.37 (6.51%) 0.593 5
FedBT-8 129.86 (37.33%) 87.95 (20.19%) 0.678 6
FedBT-10-Map 148.28 (42.62%) 87.95 (20.19%) 0.750 9
FedBT-10\Add 129.85 (37.32%) 28.37 (6.51%) 0.732 8
FedBT-10 148.28 (42.62%) 87.95 (20.19%) 0.767 4
FedBT-Map 167.89 (48.26%) 87.95 (20.19%) 0.764 5
FedBT\Add 148.29 (42.62%) 28.37 (6.51%) 0.770 8
FedBT (ours) 167.89 (48.26%) 87.95 (20.19%) 0.794 2
由表 7 可知, 客户端模型 Transformer 层的数量 L k , 更多的是影响模型的表现效果, 而不是模型计算资源, 相
比于减少客户端网络层数所节约的计算资源, 增加网络层数会更好地提升模型的表现效果. 在训练过程中使用浅
层采样构建本地模型这一策略, 在模型本地模型层数较浅时对于提升模型表现效果有一定影响, 但是当本地模型
的 Transformer 层数较多时, 原始的网络结构已经能很好地捕捉数据信息, 进行浅层采样映射会影响模型效果.
综上所述, FedBT 框架结合渐进式训练算法, 深层采样映射算法和循环递减训练算法, 能够在充分减少客户端
的训练过程中的计算开销, 联邦聚合过程中的通信开销的前提下, 保证模型的训练效果, 高效地完成 BERT 模型的
进一步预训练和下游任务微调, 实现同传统联邦学习训练完整模型接近的精确度.
6 总结与展望
本文针对联邦学习场景下客户端资源受限, 无法完成需要大量计算资源和通信资源的模型训练的问题, 提出
了一种联邦学习场景下 BERT 模型的高效训练框架 FedBT. 此框架基于渐进式训练, 采样映射和循环递减训练等
算法, 可以根据任务分类在联邦学习的客户端上训练 BERT 模型的不同部分参数, 从而节约客户端的通信开销和
计算开销, 进而在保护用户隐私数据的前提下完成对大型预训练语言模型的训练. 然而本文所研究的 BERT 模型
是一种自编码式 (autoencoder) 的预训练语言模型, 对于自回归式的预训练语言模型 (autoregressive), 如 GPT 之类
的生成式语言模型, 在联邦学习场景下的应用没有进行深入研究, 这将是本文之后的一个研究方向.
References:
[1] Wang NY, Ye YX, Liu L, Feng LZ, Bao T, Peng T. Language models based on deep learning: A review. Ruan Jian Xue Bao/Journal of
Software, 2021, 32(4): 1082–1115 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/6169.htm [doi: 10.13328/j.cnki.jos.
006169]
[2] Song XM, Nie LQ, Shen HT, Tian Q, Huang H. Special topic: Research on multimodal learning integrated with pre-training techniques
preface. Ruan Jian Xue Bao/Journal of Software, 2023, 34(5): 1997–1999 (in Chinese with English abstract). http://www.jos.org.cn/1000-
9825/6776.htm [doi: 10.13328/j.cnki.jos.006776]
[3] Gu YH, Bai YB. Survey on security and privacy of federated learning models. Ruan Jian Xue Bao/Journal of Software, 2023, 34(6):
2833–2864 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/6658.htm [doi: 10.13328/j.cnki.jos.006658]
[4] Tan ZW, Zhang LF. Survey on privacy preserving techniques for machine learning. Ruan Jian Xue Bao/Journal of Software, 2020, 31(7):

