Page 202 - 《软件学报》2025年第9期
P. 202
王鑫澳 等: 基于联邦学习的 BERT 模型高效训练框架 4113
达到期望的模型测试准确率或达到规定的训练轮次等. 在联邦学习中, 服务器不需要将所有本地数据收集起来合
为一个数据集来进行模型训练, 而是数据持有者作为联邦学习的参与者联合训练一个机器学习模型, 和传统的模
型训练方法对比, 充分保护了数据的隐私安全.
联邦服务器在更新全局模型时使用的聚合算法在联邦学习中起到了至关重要的作用, 采用不同的聚合算法得
[5]
到的全局模型不同, 目前主流使用的聚合算法为联邦平均算法 FedAvg . FedAvg 的思想是基于各客户端的训练
数据量对其本地模型参数进行加权计算, 如公式 (1):
N ∑
i
W = n i W i (1)
n k
k=1
其中, n k 为客户端 的本地训练数据量, n 为所有客户端的本地训练数据量之和, 通过数据量进行评估是联邦学习
k
客户端贡献的经典评估方式 [24] i 轮迭代, i i 轮迭代中的参数, i i 轮迭代的全局参数.
k
i , 为第 W 是客户端 k 在第 W 是第
1.2 预训练语言模型
在自然语言处理领域, 预训练语言模型的发展取得了令人瞩目的进步, 为文本理解和语言生成任务提供了强
大的工具. 传统的语言模型主要通过有监督学习从标注数据中学习, 然而在大规模数据上的性能受到一定限制. 随
着时代的发展, 研究者们开始关注如何更充分地利用大规模文本数据, 并提出了一系列创新性的预训练方法. 早期
的工作包括基于神经网络的语言模型, 例如 Word2Vec [25] 和 GloVe [26] . 这些模型通过在大量文本数据上进行训练,
将单词映射到连续向量空间, 提高了对语言的表示能力. 然而, 它们仍然受制于上下文的限制, 难以充分捕捉句子
或文档中的复杂关系. 在这一背景下, 预训练语言模型应运而生, BERT (bidirectional encoder representations from
[8]
Transformers) 作为一个里程碑式的模型, 采用 Transformer 架构, 通过无监督学习从大规模文本数据中学到了深
层次的语言表示. 与传统模型不同, BERT 在训练过程中同时考虑了上下文中的双向信息, 使其能够更好地捕捉语
境中的语义关系. BERT 的成功标志着预训练语言模型迎来了崭新的时代, 为自然语言处理领域引入了全新的范
式. 其创新性的双向编码方法和预训练目标极大地提升了模型在各种任务上的性能. 此后, 基于 BERT 的变体和扩
展不断涌现, 进一步推动了预训练语言模型领域的研究和发展. 这一系列的进步为自然语言处理任务带来了巨大
的推动力, 并在学术界和工业界引起了广泛的关注.
一些研究工作, 例如 SciBERT [27] 、BioBERT [28] 、FinBERT [29] 已经证明使用专业领域特定的语料库, 如计算机
科学、生物、医药或者金融等领域的语料对 BERT 进行进一步的预训练 (further pre-training), 可以提高模型在这
些领域任务中的性能. 然而, 专业的领域数据通常存储在不同的专业机构, 由于隐私问题一般情况下无法进行集中
式的收集并用于模型的训练. 联邦学习在隐私保护上具有天然的优势, 因此可以使用联邦学习来使用专业领域数
据对模型进行训练 [30] , 然而 BERT 等大型模型通常具有巨大的参数量, 如果在联邦学习场景下训练 BERT 模型,
需要客户端拥有足够的计算资源和通信资源来更新模型参数和聚合全局模型. 然而联邦学习客户端的资源通常有
限, 无法直接完成 BERT 之类预训练语言模型的训练.
1.3 轻量化模型
BERT 模型以其在自然语言处理任务中取得的显著成就而备受瞩目. 然而, 由于其庞大的参数量和高计算复
杂度, 限制了在资源受限环境中的部署, 特别是在联邦学习场景下. 为了克服这一挑战, 研究人员提出了一系列
BERT 的轻量化模型, 最著名的包括 DistilBERT [31] 和 TinyBERT [32] . 这些模型在保持 BERT 主要语义特征的同时,
对模型结构、参数量和计算效率等方面进行巧妙优化, 实现了在实际应用中更加灵活地平衡性能和资源消耗. 引
入这些轻量化模型为 BERT 模型在更广泛的场景中的应用提供了更多可能性.
DistilBERT 是一种由 Hugging Face 公司提出的轻量化的 BERT 模型, 其灵感来源于知识蒸馏 (knowledge
distillation) [22] 的思想. DistilBERT 采用了知识蒸馏的技术, 将来自原始 BERT 的“教师模型”的知识传递给轻量化的
“学生模型”. 在这个过程中, 学生模型被设计为一个更简化的网络结构, 以减小模型的参数数量. 通过使用教师模
型的软标签 (logits), 学生模型被引导学习原始 BERT 模型的知识, 从而实现对语义信息的保留. DistilBERT 通过
去除原始 BERT 中的一些复杂结构, 例如 Transformer 中的部分层和注意力头, 以实现模型结构的精简. 这种结构

