Page 208 - 《软件学报》2026年第1期

P. 208

高彦杰等: 大语言模型预训练系统关键技术综述 205

3 预训练系统研究及相关技术

首先, 我们将介绍具有代表性的大语言模型开源预训练系统, 对 4 类系统 (语言模型系统、单一并行策略训练
系统、混合并行策略训练系统、自动并行策略搜索训练系统) 进行详细分析, 并比较它们的优缺点. 随后, 我们将
深入探讨大语言模型预训练系统在扩展性、性能和可靠性方面的问题. 为了提升系统的扩展性, 当前的研究方向
主要包括并行训练、张量重算与张量卸载, 以及混合专家模型. 在性能方面, 高效注意力机制、混合精度训练、量
化感知训练和通信优化是缓解大语言模型训练中内存、通信与计算瓶颈的关键手段. 至于可靠性方面, 工业界和
学术界目前主要关注缺陷分析、检查点机制与弹性训练.
大语言模型训练过程包括模型切片并行化、读取和嵌入数据、执行前向传播、反向传播和权重更新, 并在此
过程中执行计算内核、进行通信和保存检查点. 然而, 大语言模型训练技术面临着多个挑战. 首先, 在面向多加速
器 (GPU) 和分布式的部署环境中, 训练或微调过程需要以模型切片等方式进行部署, 以加速训练并防止内存溢出
(out of memory, OOM). 其次, 在训练过程中通常需要多次迭代来优化模型效果, 这涉及频繁访存、通信和保存检
查点等高 I/O 开销的操作. 同时, 随着数据规模的增大, 探索既能降低空间占用和浮点运算量, 又能保证算法收敛
的稀疏化技术变得至关重要. 高效注意力机制、混合精度训练等技术被提出并应用, 可以进一步提升数据读写和
计算效率. 最后, 由于训练时间较长且集群中的硬件和软件容易出现故障, 系统层面需要通过检查点和弹性训练等
手段, 以保障系统的可靠性. 本节将围绕大语言模型预训练系统, 对其在扩展性、性能和可靠性等方面的研究进行
讨论与总结.
3.1 大语言模型预训练系统
大语言模型系统的发展可以概括为 4 个阶段. 第 1 阶段以 Transformers [21] 为代表, 开始支持大语言模型及其社
区. 在这个时期, 为了支持上述模型, 所构建的一些系统一般在底层调用深度学习框架 PyTorch [22] . 随着语言模型规
模的不断增大, 在第 2 阶段出现了支持单一类型并行策略的框架, 如 Horovod [23] 、GPipe [24] 、PyTorch DDP [25] 等, 它
们支持数据并行或流水线并行. 随着模型规模的持续扩大, 单一并行策略已无法满足需求, 于是进入了第 3 阶段, 即
设计出混合并行策略. 在这一阶段, 出现了以 Megatron-LM [26] 和 DeepSpeed [27] 为代表的框架, 它们综合运用了多种
并行方案, 并对主流硬件架构和大语言模型结构进行了深度优化. 混合并行方案对开发人员的要求较高, 尤其在研
究人员尝试新的模型结构和硬件拓扑时, 需要系统工程师协助调优. 这也进一步催生了对自动并行策略搜索的需
求. 第 4 阶段随着以 Alpa [28] 为代表的自动并行策略搜索训练系统的出现. 逐渐使普通开发者能够在新的模型结构
和硬件拓扑下部署最优的并行策略, 并顺利完成训练. 图 5 总结了开源大语言模型预训练系统的演化时间轴. 如果
已开源, 发布时间以 GitHub 第 1 个 Commit 时间为准, 未开源则以论文 arXiv 第 1 次提交时间为准.

语言模型训练系统
Transformers LightSeq MindNLP
Horovod FairScale Composer PyTorch FSDP
单一并行策略训练系统
PyTorch DDP Angel-PTM
混合并行策略训练系统 Megatron-LM DeepSpeed Colossal-Al MegaScale
Megatron-LLaMA PaddleNLP

自动并行策略搜索训练系统 Alpa MaxText nnScaler

2017 2018 2019 2020 2021 2022 2023 2024
图 5 开源大型语言模型预训练系统时间轴图

当前, 大多数并行方案以库、API 或框架的形式构建在基础深度学习框架 PyTorch 和 TensorFlow [29] 之上. 由
于深度学习框架对快速演化的语言模型结构和预处理工具支持有限, 同时其对语言模型中常用结构的并行策略和

203 204 205 206 207 208 209 210 211 212 213