Page 207 - 《软件学报》2026年第1期
P. 207

204                                                        软件学报  2026  年第  37  卷第  1  期


                    它接收由输入张量通过权重张量映射而来的                 3  个输入, 即查询向量     Q (query)、键向量   (key) 和值向量   V
                                                                                         K
                 (value). 其中  Q,K,V ∈ R  N×d ,  N  是序列长度,   d  是多注意力头的维度. 通过这些输入, 计算产生输出   O ∈ R  N×d . 计算查
                                          T
                 询与所有键的点积, 得到       S = QK ∈ R  N×N  . 然后对  S  应用  Softmax 操作, 得到  P = Softmax(S ) ∈ R N×N , 最后根据  P  与
                 V  进行点积, 产生输出    O = PV ∈ R N×d . 除了注意力层外, 多层感知器    (multilayer perceptron, MLP) 是另一个重要的
                 结构, 其中, 线性层                                I                   O:
                                (linear) 通过权重矩阵  W  对输入张量   进行矩阵乘法, 产生输出
                                                          O = IW.
                    其他层, 如层归一化      (layer normalization)、激活函数 GELU、残差连接    (residual connection, 图中为 Add) 等,
                 会穿插在层间使用. 在第       3.3.1  节介绍的模型层性能优化, 主要分为两部分: 一部分针对注意力层, 优化方法包括访
                 存优化、稀疏化以及针对长上下文的优化; 另一部分针对 MLP 层, 主要通过多专家系统                         (MoE) 等方式进行优化.

                  2   大语言模型系统技术研究框架

                    大语言模型预训练作业的完整生命周期可以包括训练程序开发、在平台上的提交与部署、模型训练、模型
                 验证与反馈几个步骤. 总体而言, 这是一个迭代性的实验过程. 根据实验结果和监控反馈, 开发者可能会进一步优
                 化模型效果, 或因存在缺陷而需要进行调试与修复. 在整个流程中, 训练过程是最关键且最复杂的环节, 可进一步
                 细分为以下步骤: 模型加载、数据加载、数据预处理、前向传播、反向传播、梯度更新. 同时, 为了调试并防止因
                 平台故障造成模型权重丢失, 系统会定期进行检查点备份. 在整个流程的各个阶段, 仍存在诸多系统设计问题亟待
                 解决, 以有效支撑大语言模型的训练需求. 例如, 在模型加载阶段, 需要确定模型的划分方式, 并决定如何应用并行
                 化策略进行部署      (如数据并行、模型并行、张量并行等). 在前向传播与反向传播阶段, 可应用高效的并行加速器
                 内核, 并采用低精度数据类型实现混合精度计算, 以提升计算效率. 此外, 在训练过程中, 由于模型被划分并分布到
                 多个  GPU  上, 需要通过通信机制完成梯度、权重或激活张量的同步与聚合, 因此依赖高效的通信方式来提升整体
                 性能.
                    当前, 大语言模型的训练过程以模型为中心, 针对特定的模型结构和执行阶段进行并行化与计算优化, 但尚未
                 形成统一的系统优化方案. 基于前文对大语言模型训练过程在系统支撑方面的需求分析, 本文提出了如图                                  4  所示
                 的研究框架, 围绕大语言模型预训练系统、扩展性、性能与可靠性, 系统梳理了研究现状、面临的挑战及相应的
                 解决方案.

                                                          大语言模型
                                                          预训练系统


                         预训练系统                 扩展性                    性能                     可靠性


                        单一    混合   自动
                  语言    并行    并行   并行     并行    张量   混合专      高效  混合精 量化感      通信       缺陷          弹性
                  模型    策略    策略   策略     训练    重算   家模型     注意力  度训练 知训练      优化       分析   检查点    训练
                                   搜索
                  系统    训练    训练   训练          与卸载            机制
                        系统    系统   系统

                                    数 全 张 流 序 自           访 近 分 低          通 异 通 卸      静 动        部 运
                                    据 切 量 水 列 动           存 似 桶 秩          信 步 信 载      态 态        署 行
                                    并 片 并 并 并 混           优 与      分       算 通 数 通      分 分        层 时
                                    行 数 行 行 行 合           化 稀      解       法 信 据 信      析 析        控 插
                                       据          并          疏     与       优     量 原               制 桩
                                       并          行          化     降       化     优 语
                                       行                           维             化

                                           图 4 大型语言模型预训练系统研究方向分类
   202   203   204   205   206   207   208   209   210   211   212