Page 217 - 《软件学报》2025年第9期

P. 217

4128 软件学报 2025 年第 36 卷第 9 期

良好性能的同时, 消耗更少的资源, 并相较于其他轻量化模型表现更出色.

5.3 参数影响分析
为了充分探讨本文提出的方法受各参数的影响状况, 分别在不同条件下进行实验来检验分析不同参数对
FedBT 模型训练效果的影响.
表 4 展示了在进一步预训练场景下的算法消融实验, 使用计算机科学与技术领域的语料对消融模型进行预训
练之后, 再将消融模型在 SciERC 数据集上进行微调, 得到各种消融模型在下游任务上的 F1 分数, 用于证明
FedBT 框架的有效性. 主要对比了以下几种策略.

表 4 FedBT 进一步预训练场景消融实验

模型计算开销 (s) 通信开销 (MB) F1
FedBT-All 6 753.05 (49.50%) 255.57 (61.17%) 0.639 3
FedBT\PL 4 806.06 (35.23%) 29.42 (7.04%) 0.640 7
FedBT\M 4 680.99 (34.31%) 29.42 (7.04%) 0.623 9
FedBT\S 4 680.99 (34.31%) 29.42 (7.04%) 0.603 8
FedBT\SP 4 309.93 (31.59%) 29.42 (7.04%) 0.641 8
FedBT (ours) 4 680.99 (34.31%) 29.42 (7.04%) 0.642 1

● FedBT-All, 此方法为在客户端的本地模型训练过程中会更新所有的参数;
● FedBT\PL, 此方法为在客户端的本地模型训练过程中只训练第 1 层的 Transformer 参数和输出层参数, 而不
会渐进式的改变训练参数;
● FedBT\M, 此方法为在客户端构建本地模型的过程中, 只使用参数池中前 L k 层的 Transformer 参数, 没有进
行深层采样映射的过程;
● FedBT\S, 此方法为只有 l 改变时, 客户端才会进行深层采样映射并构建新的本地模型, 而 FedBT 会在每一
轮联邦学习中都进行深层采样映射并构建新的本地模型;
● FedBT\SP, 此方法为联邦学习中, l 按照联邦学习迭代轮次进行增长, 而 FedBT 的 l 是折半递进的进行增长.
表 4 的结果充分证明了本文提出的 FedBT 框架在进一步预训练场景下的有效性, 所引入的渐进式采样映射
算法能够高效地完成进一步预训练. 该算法在进一步预训练阶段更注重训练模型的浅层 Transformer 参数, 同时通
过深层采样映射算法, 辅助浅层 Transformer 参数在训练过程中获取更多模型深层的知识. 在较小的模型规模下,
深层采样映射对模型训练至关重要, 可确保浅层 Transformer 参数在训练过程中获取到必要的模型整体信息, 从而
提升训练效果. FedBT\SP 等策略虽然计算开销较小, 但是对于浅层 Transformer 的训练不够充分, 训练效果不够稳
定同时由表可知, 当客户端训练的参数更多时, 并没有带来明显的效果提升, 但是却增加了计算开销与通信开销.
此外, 表 4 还验证了在每一轮联邦学习迭代中进行深层采样映射, 对于提升模型训练效果十分有效. 综上, 可知
FedBT 框架的每一步设置都是合理且有效的.
表 5 显示进一步预训练场景下, 不同客户端本地模型的中间 Transformer 层数 L k 的影响, FedBT 的客户端的
中间 Transformer 层数为 6, 当本地模型的 Transformer 层数为 4 层和 8 层时, 分别记作 FedBT-4 和 FedBT-8. 对 3
种策略在计算机科学与技术领域进行进一步的预训练, 然后在 SciERC 数据集上进行微调得到模型的 F1 分数.

表 5 进一步预训练场景下的客户端模型规模对比实验

模型计算开销 (s) 通信开销 (MB) F1
FedBT-4 4 309.93 (31.59%) 29.42 (7.04%) 0.620 1
FedBT-8 5 616.39 (41.17%) 29.42 (7.04%) 0.626 7
FedBT-6 (ours) 4 680.99 (34.13%) 29.42 (7.04%) 0.642 1

由表 5 可知, 对于 FedBT 所选择的 L k = 6, 在平衡整体模型开销和性能表现方面是有效的. 客户端本地模型层
数较少或者较多都会对模型的训练效果产生影响, 而增加层数会显著地增加计算开销. 在进一步预训练阶段,

212 213 214 215 216 217 218 219 220 221 222