Page 203 - 《软件学报》2026年第1期
P. 203
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2026,37(1):200−229 [doi: 10.13328/j.cnki.jos.007438] [CSTR: 32375.14.jos.007438] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
大语言模型预训练系统关键技术综述
高彦杰 1 , 陈跃国 2
1
(中国人民大学 信息学院, 北京 100872)
2
(数据工程与知识工程教育部重点实验室 (中国人民大学), 北京 100872)
通信作者: 陈跃国, E-mail: chenyueguo@ruc.edu.cn
摘 要: 在人工智能时代, 如何高效地完成大语言模型的预训练, 以满足其在扩展性、性能与稳定性方面的需求,
是亟需解决的重要问题. 大语言模型系统充分利用加速器和高速网卡进行并行张量计算和通信, 极大地提高了模
型训练的性能, 这一进展伴随着一系列尚待解决的系统设计问题. 首先, 在分析大语言模型预训练过程的基础上,
介绍了其训练流程与负载特点. 其次, 从预训练系统的扩展性、性能和可靠性角度出发, 分别介绍了各类系统技术
的分类、原理、研究现状及热点问题. 最后, 从总体层面深入分析了大型语言预训练系统面临的挑战, 并展望了其
未来的发展前景.
关键词: 人工智能; 大语言模型; 大语言模型预训练系统
中图法分类号: TP18
中文引用格式: 高彦杰, 陈跃国. 大语言模型预训练系统关键技术综述. 软件学报, 2026, 37(1): 200–229. http://www.jos.org.cn/
1000-9825/7438.htm
英文引用格式: Gao YJ, Chen YG. Survey on Key Technologies for Large Language Model Pre-training Systems. Ruan Jian Xue
Bao/Journal of Software, 2026, 37(1): 200–229 (in Chinese). http://www.jos.org.cn/1000-9825/7438.htm
Survey on Key Technologies for Large Language Model Pre-training Systems
1
GAO Yan-Jie , CHEN Yue-Guo 2
1
(School of Information, Renmin University of China, Beijing 100872, China)
2
(Key Laboratory of Data Engineering and Knowledge Engineering (Renmin University of China), Beijing 100872, China)
Abstract: In the era of artificial intelligence, efficiently completing the pre-training of large language models to meet requirements for
scalability, performance, and stability presents a critical challenge. These systems leverage accelerators and high-speed network interfaces
to execute parallel tensor computations and communications, significantly enhancing training efficiency. However, these advancements
bring a series of unresolved system design challenges. Based on an analysis of the pre-training process, this study first outlines the training
procedures and workload characteristics of large language models. It then reviews system technologies from the perspectives of scalability,
performance, and reliability, covering their classifications, underlying principles, current research progress, and key challenges. Finally, this
study provides an in-depth analysis of the broader challenges facing large language model pre-training systems and discusses potential
directions for future development.
Key words: artificial intelligence; large language model (LLM); large language model pre-training system
随着大语言模型 (large language model, LLM) 时代的到来, 模型的规模从百亿 (10B) 参数扩大到千亿 (100B)
级别. 这些模型能够支持多种任务, 包括传统的对话、摘要生成、机器翻译和程序合成. OpenAI ChatGPT、Google
Bard、百度文心一言等代表这一潮流的大语言模型应用, 其用户数量也在迅速增长. 然而, 随着模型规模和用户数
量的迅速增长, 模型预训练过程中存在的性能、扩展性和稳定性等方面的问题也日益凸显. 大语言模型所带来的超
* 基金项目: 国家自然科学基金 (62272466, U24A20233); 中国人民大学国家治理大数据和人工智能创新平台
收稿时间: 2024-03-04; 修改时间: 2024-08-02; 采用时间: 2025-03-25; jos 在线出版时间: 2025-10-15
CNKI 网络首发时间: 2025-10-16

