Page 203 - 《软件学报》2026年第1期
P. 203

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2026,37(1):200−229 [doi: 10.13328/j.cnki.jos.007438] [CSTR: 32375.14.jos.007438]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                              *
                 大语言模型预训练系统关键技术综述

                 高彦杰  1 ,    陈跃国  2


                 1
                  (中国人民大学 信息学院, 北京 100872)
                 2
                  (数据工程与知识工程教育部重点实验室          (中国人民大学), 北京 100872)
                 通信作者: 陈跃国, E-mail: chenyueguo@ruc.edu.cn

                 摘 要: 在人工智能时代, 如何高效地完成大语言模型的预训练, 以满足其在扩展性、性能与稳定性方面的需求,
                 是亟需解决的重要问题. 大语言模型系统充分利用加速器和高速网卡进行并行张量计算和通信, 极大地提高了模
                 型训练的性能, 这一进展伴随着一系列尚待解决的系统设计问题. 首先, 在分析大语言模型预训练过程的基础上,
                 介绍了其训练流程与负载特点. 其次, 从预训练系统的扩展性、性能和可靠性角度出发, 分别介绍了各类系统技术
                 的分类、原理、研究现状及热点问题. 最后, 从总体层面深入分析了大型语言预训练系统面临的挑战, 并展望了其
                 未来的发展前景.
                 关键词: 人工智能; 大语言模型; 大语言模型预训练系统
                 中图法分类号: TP18

                 中文引用格式: 高彦杰,  陈跃国.  大语言模型预训练系统关键技术综述.  软件学报,  2026,  37(1):  200–229.  http://www.jos.org.cn/
                 1000-9825/7438.htm
                 英文引用格式: Gao  YJ,  Chen  YG.  Survey  on  Key  Technologies  for  Large  Language  Model  Pre-training  Systems.  Ruan  Jian  Xue
                 Bao/Journal of Software, 2026, 37(1): 200–229 (in Chinese). http://www.jos.org.cn/1000-9825/7438.htm

                 Survey on Key Technologies for Large Language Model Pre-training Systems
                           1
                 GAO Yan-Jie , CHEN Yue-Guo 2
                 1
                 (School of Information, Renmin University of China, Beijing 100872, China)
                 2
                 (Key Laboratory of Data Engineering and Knowledge Engineering (Renmin University of China), Beijing 100872, China)
                 Abstract:  In  the  era  of  artificial  intelligence,  efficiently  completing  the  pre-training  of  large  language  models  to  meet  requirements  for
                 scalability,  performance,  and  stability  presents  a  critical  challenge.  These  systems  leverage  accelerators  and  high-speed  network  interfaces
                 to  execute  parallel  tensor  computations  and  communications,  significantly  enhancing  training  efficiency.  However,  these  advancements
                 bring a series of unresolved system design challenges. Based on an analysis of the pre-training process, this study first outlines the training
                 procedures  and  workload  characteristics  of  large  language  models.  It  then  reviews  system  technologies  from  the  perspectives  of  scalability,
                 performance,  and  reliability,  covering  their  classifications,  underlying  principles,  current  research  progress,  and  key  challenges.  Finally,  this
                 study  provides  an  in-depth  analysis  of  the  broader  challenges  facing  large  language  model  pre-training  systems  and  discusses  potential
                 directions for future development.
                 Key words:  artificial intelligence; large language model (LLM); large language model pre-training system
                    随着大语言模型      (large language model, LLM) 时代的到来, 模型的规模从百亿     (10B) 参数扩大到千亿     (100B)
                 级别. 这些模型能够支持多种任务, 包括传统的对话、摘要生成、机器翻译和程序合成. OpenAI ChatGPT、Google
                 Bard、百度文心一言等代表这一潮流的大语言模型应用, 其用户数量也在迅速增长. 然而, 随着模型规模和用户数
                 量的迅速增长, 模型预训练过程中存在的性能、扩展性和稳定性等方面的问题也日益凸显. 大语言模型所带来的超


                 *    基金项目: 国家自然科学基金  (62272466, U24A20233); 中国人民大学国家治理大数据和人工智能创新平台
                  收稿时间: 2024-03-04; 修改时间: 2024-08-02; 采用时间: 2025-03-25; jos 在线出版时间: 2025-10-15
                  CNKI 网络首发时间: 2025-10-16
   198   199   200   201   202   203   204   205   206   207   208