Page 210 - 《软件学报》2026年第1期
P. 210
高彦杰 等: 大语言模型预训练系统关键技术综述 207
灵活性. 最后, FairScale 支持 FSDP 作为扩展大型神经网络训练操作的首选方法. 同时, 它还具有在资源受限系统
中进行训练的关键功能, 包括支持激活检查点、高效模型卸载和扩展等特性. 通过这些功能, FairScale 为用户提供
了强大而灵活的工具, 以满足不同训练场景的需求.
Composer [37] 是由 Mosaic ML [38] 设计的一个库, 已经成功用于训练 Mosaic ML 的 MPT 7B 和 MPT 30B 模型.
该库建立在 PyTorch 之上, 提供了一系列加速方法, 用户可以将其整合到其他训练框架中, 或者与 Composer 训练
器一同使用以获得更优质的体验. Composer 支持 FSDP 以实现高效的并行性, 还支持弹性共享检查点以实现稳健
的间歇性训练. 此外, Composer 提供了数据集流的实现, 允许用户在训练期间即时从云存储中下载数据集.
3) 混合并行策略训练系统. 这类系统综合了多种并行方案. 例如, Megatron-LM, DeepSpeed 在大语言模型的训
练中综合应用了张量并行、流水线并行和数据并行方案, 并对其在 NVIDIA 的加速器和集群架构上执行进行了深
度优化.
DeepSpeed 是由 Microsoft 开发的一个集成框架, 用于训练和部署大语言模型. 该框架已成功用于训练大型模
型, 如 Megatron-Turing NLG 530B [39] 和 BLOOM. DeepSpeed 的设计集成了 ZeRO [40] , 支持 FSDP 模式的训练. 同时,
ZeRO-Offload [41] 优化器使得在 CPU 和 GPU 上进行训练变得更加便捷, 不受内存容量的限制. 此外, DeepSpeed 还
设计了扩展模块 DeepSpeed-Chat, 以增加对聊天任务的支持, 该模块通过与 DeepSpeed 系统集成来实现来自人类
反馈的强化学习 (RLHF) 技术.
Megatron-LM 是由 NVIDIA 开发的训练框架, 旨在支持 GPT 等大语言模型的训练框架. 该框架包括各种专门
针对 NVIDIA GPU 的工具和优化. Megatron-LM 的核心设计思想是对模型张量操作进行分解, 并将其分布在多个
GPU 上, 以优化处理速度和内存利用率. 其支持数据并行、张量并行、流水并行等多种并行策略.
Megatron-LLaMA [42] 由阿里巴巴开源发布. 为了方便基于 LLaMA 的模型训练, 并降低硬件资源占用和训练成
本, 阿里巴巴发布了经过内部优化的 Megatron-LLaMA 训练框架, 该框架基于 Megatron-LM 构建. Megatron-
LLaMA 提供了 LLaMA 的标准实现、高效的通信与计算并行方案, 以及多个实用工具, 包括: a) 分布式检查点的
保存与恢复, 用于加速训练流程; b) 便捷的界面, 用于模型权重与 HuggingFace 格式之间的转换; c) 支持 Hugging-
Face Transformers 库中的 Tokenizers 模块.
Colossal-AI [43] 是一个专为应对大规模分布式训练挑战而设计的框架. 它支持 LLaMA、GPT-3、BERT、
PaLM 等多种模型的实现. 该框架提供了一个简化的平台, 有助于减少系统碎片化问题, 并提升训练流程的效率,
同时支持多种并行策略, 如数据并行、张量并行、流水并行和序列并行等. 这种集成方法简化了在分布式环境中
进行大规模训练的流程. 此外, 该框架还集成了量化、梯度累积、混合精度等多项优化技术.
MegaScale [44] 是由字节跳动开发的大语言模型训练系统, 能够高效地扩展到 1 万块以上 GPU 进行训练. 该系
统支持数据并行、张量并行、流水并行和序列并行策略, 并对训练效率与稳定性的挑战进行了深入分析.
MegaScale 采用全栈方法, 通过模型块与优化器设计、计算与通信的重叠、算子优化、数据流水线以及网络性能
调整等手段, 实现了算法与系统的协同设计. 此外, MegaScale 还开发了诊断工具, 用于运行时分析与调优. 相关工
作还分享了在故障识别与修复方面的运维经验.
PaddleNLP [45] 是百度研发的、基于飞桨深度学习框架的大语言模型开发套件, 支持在多种硬件 (如 NVIDIA
GPU、昆仑 XPU、昇腾 NPU、燧原 GCU 和海光 DCU 等) 上进行高效的大模型训练, 支持多种并行策略、微调、
无损压缩以及高性能推理. 已支持的大语言模型系列包括 LLaMA 系列、Baichuan 系列、Bloom 系列、ChatGLM
系列、Gemma 系列、Mistral 系列、OPT 系列和 Qwen 系列.
4) 自动并行策略搜索训练系统. 这类系统支持多种并行方案, 并将其搜索过程抽象为一个优化问题, 能够自动
求解并合成适用于特定硬件拓扑和模型结构的方案.
Alpa [28] 既是一个用于训练和部署大规模神经网络的库, 也是一个用 Python 和 JAX 编写的大语言模型框架,
并支持在 Google Cloud TPUs 上运行. 通常情况下, MaxText 能够实现 55%–60% 的模型 FLOPs 利用率, 并可从单
个主机扩展至大规模集群. 同时, 系统还利用 JAX 和 XLA 编译器的强大功能, 实现了自动优化.
MaxText 大语言模型框架用 Python 和 JAX 编写, 并支持在 Google Cloud TPUs 上运行. 通常情况下, MaxText

