Page 226 - 《软件学报》2026年第1期
P. 226

高彦杰 等: 大语言模型预训练系统关键技术综述                                                          223


                  4.1   大模型大数据与资源紧缺的挑战
                    OpenAI 的  Henighan  等人  [4] 提出的  Scaling Law  在  4  个领域中确定了交叉熵损失的实证缩放定律: 生成图像
                 建模、视频建模、多模态图像与文本模型转换以及数学问题求解. 在这几种情况下, 随着模型大小和计算预算的
                 增加, 自回归基于     Transformer 的模型性能都能平稳提升, 其损失缩放关系遵循幂律规律. 最优模型大小也取决于
                                                                                              [2]
                 计算预算, 通过一种幂律来衡量, 其指数在所有数据领域中几乎是普遍适用的. 同时, 通过对                           GPT-3 的实验与发
                 布, 不断通过扩展模型和算力提升模型效果. 然而, 对于大部分的机构与个人而言, 预期的模型效果需要海量的算
                 力资源支撑才能完成训练. 然而, 实际情况是资源紧缺, 模型训练耗时长, 资源消耗大. 因此, 如何支撑更大规模的
                 模型部署, 提升模型计算的性能, 以及提升资源的利用率, 仍然是需要解决的根本问题. 在这个过程中, 可以从算法
                 层、系统层和硬件层的协同设计与优化中获取启示. 例如, 混合专家模型通过模型层的稀疏性, 在有限资源下进一
                 步增加模型参数的效果, 展现出系统和算法融合的潜力. FlashAttention              则采用在线    Softmax, 改变了算法计算聚合
                 模式, 为系统层进一步降低访存提供了机会. 同时, 在算法方面, 可以探索更加稀疏的模型架构设计, 以便在固定的
                 计算成本下探索更大的语言模型. 为此, 需要建立大模型训练的跨层理论和模型, 理清算法、系统和硬件之间的内
                 在联系, 使其成为大语言模型扩展性、计算性能优化与利用率提升的基石.
                  4.2   研究与工程快速迭代的挑战
                    受益于开源社区和预印版论文模式, 学术界和工业界对大语言模型进行的研究和工程实践迭代速度非常快.
                 在如此快速演进的算法、模型结构和系统面前, 如何通过大语言模型预训练系统更加灵活地支撑研究并适配工程
                 需求是巨大的挑战. 对研发者而言, 快速跟进、二次开发以及开源系统的应用也是一项考验. 为了应对快速的研究
                 与工程迭代, 可以通过标准化与工具化手段, 缓解开发难点并提升研发效率. 开源社区提供了更统一的接口标准,
                 使得新的模型与系统优化能够以可插拔的方式集成入现有工具链. 例如, 大语言模型通常发布于 Hugging Face 社
                 区, 用户可以通过其 Transformers 库方便地进行下载、训练和微调. 社区与系统的联合设计在一定程度上推动了
                 大语言模型开发流程的标准化. 基于面向切面的设计原则, 研究者可以持续研发出调试工具和程序分析工具, 用于
                 解决新系统和算法在监控、剖析、日志处理等方面的共性问题. 由于大语言模型具备较强的上下文理解与程序合
                 成能力, 借助大语言模型辅助自身系统的研发, 也在一定程度上提升了开发效率.
                  4.3   系统复杂性与缺陷带来的挑战
                    由于大规模模型部署、算力基础架构及模型研发的快速迭代特点, 大语言模型预训练系统在设计和开发上缺
                 乏充分的测试, 同时基础架构层面容易发生故障. 这为高质量支撑大语言模型的研发和训练带来了极大的挑战. 因
                 此, 如何形式化或定量化地描述大语言模型系统及其缺陷复杂性的本质特征与外在度量指标, 并进一步研究系统
                 和缺陷复杂性的内在机理是一个关键问题. 通过对大语言模型计算和缺陷规律的研究, 有助于理解其复杂模式的
                 本质特征和生成机制, 从而提升系统设计质量, 获得更清晰的系统抽象, 并有效指导大语言模型系统的设计. 因此,
                 厘清算法与系统之间的内在联系, 可实现算法与系统的协同设计. 通过对数据通信与计算复杂性机理的建模与解
                 析, 阐明大语言模型按需简化、降低复杂度的原理与机制; 同时, 通过对缺陷的形式化建模, 阐明其静态或动态验
                 证、测试的原理与机制. 这些对问题的理解和形式化建模工作将成为大语言模型计算的理论基础.

                  5   前沿展望与未来趋势

                    随着大模型的发展, 多模态模型逐渐引起关注, 其模型架构以大语言模型为推理基础, 集成了其他模态                                (例如,
                 图像、视频、语音等). 如何在原有的预训练系统上支持更多模态, 如多模态的数据管理、预处理与流水线读取;
                 如何综合设计保证精度的高效跨模态的基于稀疏性优化及量化; 在模型更加异构, 集群资源更加异构趋势下, 对更
                 加复杂的并行切片搜索空间, 如何高效地设计并行策略; 针对多模态模型更丰富的算子集合, 设计更加高效的内核
                 算法与内核融合, 加速算子执行. 以上方向都对未来的预训练系统设计提出了新的挑战和机遇.
                    随着大语言模型编码、调试和数学推理能力的不断提升, 在软件工程与系统社区逐渐有研究人员尝试利用大
                 语言模型的能力指导系统设计. 同理, 大语言模型也有潜力应用到大语言模型系统本身的设计、优化与调试诊断
   221   222   223   224   225   226   227   228   229   230   231