Page 205 - 《软件学报》2025年第9期

P. 205

4116 软件学报 2025 年第 36 卷第 9 期

客户端进行联邦聚合过程中会产生通信开销, 客户端需要把本地更新的参数上传到服务端进行聚合, 并且下
载服务端聚合后的参数用于新一轮的训练. 模型的通信开销可以形式化的表示为公式 (3), 主要由客户端模型需要
更新的 Transformer 层数量影响.

N ∑
u
Cost comm = Trans(M k (L )) (3)
k
k=1
′
训练完成之后, 服务端全局模型 M G 通过映射使用客户端聚合得到的参数 W , 之后在服务端的数据集上测试
模型的表现 (进一步预训练场景下需要先在服务端的下游任务 D G 上进行微调, 然后在测试数据集 D G-test 上测试).
模型最终的表现效果可以表示为公式 (4).

{
0
′
Fine_Tune(M G · Map(W ,W ),D G )·Test(D G-test )
Acc = G (4)
Test(M G · Map(W ,W )· D G )
0
′
G
FedBT 框架整体的目标是想要使用客户端的数据达到尽可能好的表现效果, 同时尽量减小客户端的计算开销
n
与通信开销, 因此可以将框架的目标表示为公式 (5), 开销的上角标 Cost 代表将开销归一化为和模型表现效果同
样的维度.

u
Target = max(Acc−Cost n −Cost n ) = max F(L k ,L ,π) (5)
comp comm k
在联邦学习的情境下, 客户端的计算资源和通常资源通常是有限的, 因此在 FedBT 框架中, 客户端的训练开
销与通信开销至少需要控制在传统联邦学习的一半以下 (传统联邦学习指的是在客户端使用完整的模型, 同时训
练、更新和传输模型的全部参数). 综上所述, FedBT 框架整体需要解决的问题为: 通过调整客户端的模型规模 L k 、
u π, 减少模型在联邦学习场景下的计算开销与通信开销, 并保证模型的训练效
更新的参数数量 L 和参数训练策略
k
果, 可以表示为公式 (6):


u
max F(L k ,L ,π)
 k



  trad
 Cost
  comp
 
  Cost comp ⩽


 (6)
   2


s.t. 
 
  trad
  Cost
 
  Cost comm ⩽ comm



2

2.2 开销分析
联邦学习场景下, 在资源受限的客户端上进行模型训练时, 需要特别关注模型的计算开销和参与联邦聚合过
程中的通信开销. 本节将通过理论分析探讨 FedBT 框架下模型的计算开销与通信开销, 为了更好地进行理论分析,
本文在分析过程中设立如下假设.
(1) 为了准确评估在联邦学习迭代过程中本地模型对全局模型的影响, 本文假设所有客户端使用相同的学习
率、批处理大小、句子长度以及其他超参数, 并在客户端对本地模型进行相同轮次的迭代 (epoch) 训练.
(2) 为了准确评估对客户端本地模型调整对整体开销的影响, 本文对某一个具体的客户端进行分析, 排除本地
数据集的规模以及外部因素 (如硬件规格) 的影响.
在本文的研究场景下, 主要是对 BERT 模型进行专业领域语料的进一步预训练和下游任务上的微调. BERT
模型的结构主要由 Embedding 层, Transformer 层, 和输出分类层构成. 在本节的分析中, 假设 V 是词汇表大小, S
是句子长度, H 是词向量维度大小, C 是分类数, N 为多头注意力机制的数量, L 为 Transformer 层的数量. 一个本
地 BERT 模型与全局 BERT 模型唯一的区别在于 Transformer 层的数量 L, 本节在分析过程中使用 L G 和 L k 来区
k 个本地模型中 Transformer 层的数量.
分全局模型和第
根据之前的相关研究 [13] 可知 BERT 模型的各个部分的计算时间复杂度为:
(1) Embedding 时间复杂度为: O((V +S )· H);
2
2
(2) Self-attention 时间复杂度为: O(L· N ·S · H );
2
2
(3) Feed forward 时间复杂度为: O(L·S · H );

200 201 202 203 204 205 206 207 208 209 210