Page 44 - 《中国电力》2026年第5期
P. 44

2026  年 第 59 卷



                                 100%   n ∑                 训练集上收敛至稳定状态,此时损失函数值稳定
                           E MAP =         y i − ˆy i    (23)

                                    n       y i               维持在    7 234  左右。这一收敛特性表明:1)所采
                                       i=1
                                                                用的优化算法具有较好的数值稳定性;2)模型
              式中:n    为样本总数;        y i 、 分别为   i 时刻负荷的
                                        ˆ y i
                                                                架构具备较强的特征学习能力;3)训练过程实
              实际值与预测值。

                                                                现了有效的参数探索。实验结果表明该模型在训
              4.2    模型训练
                                                                练集上达到了预期的优化效果。
                  本研究基于       PyTorch 2.4  深度学习框架,在配
                                                                4.3    结果分析
              备  NVIDIA GeForce RTX 3070 GPU  的工作站上进行
                                                                    为验证所提      Transformer-集成学习融合模型的有
              模型训练。实验中          2011  年  1  月  1  日至  2023 年  12  月
                                                                效性,选用     LSTM [16] 、标准  Transformer、STformer [21] 、
              31  日数据作为训练集,2024          年  1  月  1  日至  2024  年
                                                                XGBoost+Informer [22]  及 本 文 模 型 ( Ensemble Trans-
              12  月  31  日数据作为验证集。
                                                                former)进行指定日负荷预测对比实验。各模型
                  在模型架构方面,采用编码器与解码器各两层
                                                                在数据预处理与模型架构上的差异如表                    1  所示。
              的  Transformer 结构,模型特征维度         d   l  设为  128,
                                                mode

              配备   4  头自注意力机制,前馈网络隐藏层维度设                              表 1   不同模型的数据预处理与模型架构对比
              为  256。为提升模型鲁棒性,使用差异化的                  Dropout    Table 1   Comparison of data preprocessing and model
              概 率 集 合 {0.2, 0.4, 0.6, 0.8}并 行 训 练  4  个 独 立 模            architectures across different models
              型。模型优化使用           AdamW  算法,其超参数设置                    预测模型          数据预处理            特征
                                                                                  正弦余弦位置      自注意力机制+差异化
              为:初始学习率为         2×10 ,动量参数       β=(0.9, 0.999),  Ensemble Transformer
                                   –5
                                                                                  编码+嵌入编码      Dropout正则化集成
              权重衰减系数为        1×10 ,批量大小(batch size)为                              负荷序列趋势-       稀疏注意力机制+
                                  –4
                                                                     STformer [21]
              128。学习率调度采用余弦退火策略,其中最小学                                               波动分解         Dropout正则化
                                                                                  XGBoost关键      概率稀疏自注
              习率设为初始值的          1/10,周期长度设置为总训练                  XGBoost+ Informer [22]  特征选择      意力机制
                                                                                  正弦余弦位置
              轮次的    1/4。为防止过拟合,在训练过程中引入                           标准Transformer               标准自注意力机制
                                                                                  编码+嵌入编码
              了  Dropout 正则化技术。模型初始设定为              300  训练
                                                                      LSTM             /        经典LSTM结构
              轮次(epoch),并采用早停策略(监控验证集损
              失,耐心值设为        10)以防止过拟合。训练过程中,                       由 于  STformer 和  XGBoost+Informer 的 公 开 实
              虽然早停条件未触发,但验证集损失下降已逐渐                             现细节有限,且原文献采用的数据集与本研究差
              平缓,表明模型在训练周期内已达到充分收敛。                             异较大,为保证对比的公平性与可解释性,本实验
              整个训练过程耗时约           6  小时。                        以本文模型为基准,依据原文描述的核心架构,对
                  如图   5  所示,训练损失函数值随训练轮次的                      影响参数量的关键维度进行合理缩放,使各对比
              增加呈现单调递减趋势,其收敛过程表现出良好                             模 型 与 本 文 模 型 的 参 数 量 处 于 相 近 量 级 ( Ense-
              的稳定性。具体而言,在前                250  轮迭代过程中,          mble Transformer 集成了  4  个参数量均为      65 万的标
              损失值持续下降并逐渐趋于收敛;经过                     300 轮训      准  Transformer 模型,权重以     32  位浮点数存储)。
              练后,损失值累计下降率达               97.80%。最终模型在               具体而言,缩放依据为             Transformer 类模型中
                                                                参数量与隐藏维度(d              )、前馈网络维度(d )
                                                                                     model                   ff
                      40
                                              训练损失              等核心维度之间的平方或线性关系。在保持原模
                      35
                      30                                        型注意力头数、层数等结构比例不变的前提下,
                     损失值/×10 4  25                              按比例调整上述关键维度且模型不过拟合,使对
                      20
                                                                                                   万参数范围
                                                                比模型参数量控制在大约
                                                                                          65
                                                                                            万~260
                      15
                      10
                                                                内。数据预处理均遵循各对比文献中所述方法进
                       5
                                                                行,以维持实验过程的一致性。
                       0
                        0   50   100  150  200  250  300
                                    迭代轮数                            在预测阶段,模型采用基于滑动窗口的逐点
                             图 5   训练损失曲线                       滚动预测范式:以连续            32  个历史时刻的负荷序列
                          Fig. 5    Training loss curve         作为输入,依次预测下一时刻负荷值。为量化模
               40
   39   40   41   42   43   44   45   46   47   48   49