Page 205 - 《软件学报》2026年第1期
P. 205

202                                                        软件学报  2026  年第  37  卷第  1  期


                                             表 1    具有代表性的大语言模型总结        (续)

                        模型            权重数量 (B)        预训练数据规模            训练硬件规格            训练时间 (天)
                            [18]
                     Flan-PaLM           540               -              512 TPU-v4           1.5
                           [19]
                      MPT-7B              7              1T 标记               -                 -
                 注: -表示该模型没有披露信息
                    从表  1  可见, 大语言模型的参数量从        10  亿级到千亿级不等, 训练数据规模在数百            GB  至  TB  之间; 训练硬件
                 使用数量从数百块到上万块加速器不等, 训练时间则跨度从几天至几个月. 如此庞大的模型规模、数据量和资源
                 消耗, 为大语言模型预训练系统的设计带来了巨大挑战. Ma 等人                   [20] 针对在国产高性能计算机上高效训练百万亿
                 参数预训练模型的场景, 系统分析了高效并行策略、数据存储方案及数据精度选择所面临的挑战, 并提出了相应
                 的解决方法. 本文将进一步分析大语言模型的训练流程, 并围绕开源大语言模型预训练系统的扩展性、性能和可
                 靠性展开讨论.
                  1.2   大语言模型训练过程
                    大语言模型的训练方式主要延续了深度学习中语言模型的训练方法. 具体来说, 训练算法主要分为遮罩语言
                 模型  (masked language model, MLM) 和自回归语言模型  (autoregressive language model, ALM) 两类. 主流的大语言
                 模型多采用自回归模式进行训练.
                    MLM  在  BERT  系列语言模型训练中被广泛使用. 其原理是随机遮蔽输入序列中的一部分词汇, 将其替换为
                 特殊的“[MASK]”标记, 模型则需通过上下文中的其他词汇来预测这些被遮蔽的内容. 这种双向、基于上下文的训
                 练方式, 使得   BERT  能够更好地理解词义与上下文之间的关系.
                    GPT  系列模型采用自回归方法进行训练, 旨在预测序列中的下一个词汇. 模型通过分析当前序列中的已有标
                 记, 生成对下一个词汇的预测. GPT 是一种按从左到右顺序生成词汇的模型, 每个位置的词汇仅依赖其左侧的上
                 下文信息. 这种单向、自回归的训练方式, 使得             GPT  不仅能够流畅生成文本, 还具备强大的建模能力, 可将多种任
                 务转化为自回归预测问题来处理.
                    随着  GPT-3  等自回归模型取得突破性进展, 当前主流的大语言模型大多采用自回归方式进行训练. 这一训练
                 过程可描述为在序列训练数据上, 通过最小化对下一个词或标记的预测误差来优化模型. 在该过程中, 训练数据由
                 输入序列和相应的标签组成          (自回归训练中, 标签即为下一个需预测的标记), 模型通过学习它们之间的映射关系,
                 不断优化预测性能.
                    大语言模型的训练目标可以被形式化为一个概率建模问题, 给定一个文本序列                           x = [x ,..., x ] (T  代表第  T  个
                                                                                      1
                                                                                           T
                 标记  (token)), 自回归语言模型通过预测序列中每个词在其前文条件下出现的概率. 模型在训练过程中通过学习如
                 何给出当前词在已有上下文条件下的概率分布, 从而提升预测下一个词的准确率. 其中,                           h θ (x 1:t−1 ) 表示由神经网络
                 (如 RNN 或 Transformer) 生成的上下文表示, 而    e(x) 表示  x 的嵌入.

                                                                      (           )
                                                                              T
                                                                    exp h θ (X 1:t−1 ) e(x t )
                                                T ∑           T ∑
                                     maxlog (x) =  logP θ (x t |x <t ) =  log ∑  (  ).
                                                                               T
                                      θ   P θ                        exp h θ (x 1:t−1 ) e(x )
                                                                                  ′
                                                t=1           t=1
                                                                   x ′
                    图  1  概括展示了大语言模型的训练过程. 在给定训练语料数据的情况下, 训练通常首先对数据进行分词
                 (tokenize), 然后对这些标记进行词嵌入       (embedding) 和位置嵌入编码. 接着, 语言模型开始训练, 模型需要在数据
                 上多次迭代, 以逐步优化损失函数. 这个过程所需的时间和 GPU 资源消耗取决于模型尺寸和数据量的大小. 在训
                 练完成后, 需要在未参与训练的测试数据上对模型进行评估. 评估过程中会计算困惑度                              (perplexity)、准确率、
                 BLEU 等指标, 并评估模型在安全性、伦理性与偏见等方面的表现. 上述整个流程可称为一次训练实验. 随后, 通
                 过分析评测中发现的问题, 研究人员通常会采取调整学习率、去除某些批次数据、添加激活规范化层等策略进行
                 优化, 并开始下一轮训练尝试. 如此循环, 直到模型在评测中达到预期效果. 整个过程可能持续数天或数月, 并需要
                 多轮实验和不断优化.
   200   201   202   203   204   205   206   207   208   209   210