Page 217 - 《软件学报》2026年第1期

P. 217

214 软件学报 2026 年第 37 卷第 1 期

常用的门控 (gating) 有 Softmax 门控和噪声 Top-K 门控等. Softmax 门控是一种简单的非稀疏门控方法, 其原

理是将输入与可训练的权重矩阵 W g 相乘, 并应用 Softmax 函数以获得门控分数.

G σ (x) = Softmax(x·W g ).
MoE 的执行过程如图 7 所示. 每当输入一个标记 (例如“你”), 通过标记路由选择输出概率, 然后选择相应的前
馈神经网络专家 (FFN) 进行前向传播和反向传播. 这意味着模型包含多个专家的权重总和, 但每次仅随机选择一
个专家进行计算, 从而大幅降低了计算量. 这可以视为一种模型层级的稀疏计算. 与相同质量的密集模型相比,
MoE 结构的模型在训练成本上显著降低. 然而, 由于语言模型的尺寸逐渐增大, 以及其独特的模型结构, 如何实现
快速的 MoE 模型训练仍然是一个挑战.

FFN 1 FFN 2 FFN 3 FFN 1 FFN 2 FFN 3

P=0.6 P=0.7
Router Router

Token 1 Token 1
你是
图 7 混合专家模型

分布式 MoE 训练的主要瓶颈是模型计算中交错的 AllToAll 通信所导致的效率低下. Tutel [61] 中提出, MoE 算
法的性能取决于路由标记, 路由标记确保每个输入标记都能正确地转发给相应的子专家模型. 现有系统由于采用
静态执行策略, 其中静态并行和流水线导致计算效率低下, 无法适应动态工作负载, 从而产生性能损失. Tutel 设计
了一种具有动态自适应并行性和流水线功能的方法, 能够在运行期间切换并行性和动态流水线, 无需动态迁移张
量. 同时, 该方法还实现了高效的通信和快速的编码解码, 从而提升了性能. Lina [62] 分析了 AllToAll 算法开销的主
要原因, 通过使用张量分区, 将 AllToAll 尽可能与 All-Reduce 并行执行. 最后, 还通过探索动态专家选择模式, 调
度资源以平衡 AllToAll 跨设备的倾斜通信量和带宽. SmartMoE [63] 中提出, 由于当前 MoE 模型对数据敏感, 不同的
数据会导致门控网络动态选择输入和对应专家的匹配, 从而引发不平衡的计算开销. 传统的模型训练通过静态预
测固定执行开销, 且优化策略的搜索空间巨大, 使用传统方法进行动态搜索最优方案较慢, 这对模型训练和优化带
来了很大挑战. 最终, 作者设计了一个两阶段方案, 通过数据敏感性能预测模型离线构建策略池, 系统通过高效搜
索算法在线选择池中的最优并行策略选项.
3.3 性能
大语言模型因为依赖大规模模型结构和海量数据进行训练, 通常需要数天甚至数月才能完成训练. 其训练所
需的大量 GPU 资源成本极高, 因此提升训练性能将大幅降低训练成本, 并提升研究效率. 目前, 研究人员通过高效
的注意力机制、混合精度训练、量化感知技术和通信优化等手段, 能够有效提升预训练系统的性能.
3.3.1 高效注意力机制
高效注意力机制指的是能够提高大型语言模型计算和访存效率的一种方法. 通过引入不同的变体, 如访存优
化、稀疏注意力、局部注意力等, 这些机制能够在保持模型性能的同时降低计算成本. 这种高效性使得大型语言
模型能够更快地处理长文本序列, 加速训练和推理过程, 为自然语言处理任务带来显著的性能提升. 本文将高效注
意力分为以下几类: 访存优化、近似与稀疏化、分桶、低秩分解与降维, 后文将对每一类进行详细介绍.
3.3.1.1 访存优化
Andrei 等人 [64] 发现, Transformer 的训练是一项计算量极大的任务, 然而现有的实现未能有效利用 GPU, 因为
数据移动常常成为训练的关键瓶颈. 随着计算性能相较于内存带宽和网络带宽显著提升, 训练过程现在更多受到
内存访问的限制. 正如图 8 所示, 大型语言模型通常采用具有以下内存层级的硬件架构: GPU 芯片上的 SRAM、

212 213 214 215 216 217 218 219 220 221 222