Page 44 - 《中国电力》2026年第5期

P. 44

2026 年第 59 卷

100% n ∑ 训练集上收敛至稳定状态，此时损失函数值稳定
E MAP = y i − ˆy i （23）

n y i 维持在 7 234 左右。这一收敛特性表明：1）所采
i=1
用的优化算法具有较好的数值稳定性；2）模型
式中：n 为样本总数； y i 、分别为 i 时刻负荷的
ˆ y i
架构具备较强的特征学习能力；3）训练过程实
实际值与预测值。

现了有效的参数探索。实验结果表明该模型在训
4.2 模型训练
练集上达到了预期的优化效果。
本研究基于 PyTorch 2.4 深度学习框架，在配
4.3 结果分析
备 NVIDIA GeForce RTX 3070 GPU 的工作站上进行
为验证所提 Transformer-集成学习融合模型的有
模型训练。实验中 2011 年 1 月 1 日至 2023 年 12 月
效性，选用 LSTM [16] 、标准 Transformer、STformer [21] 、
31 日数据作为训练集，2024 年 1 月 1 日至 2024 年
XGBoost+Informer [22] 及本文模型（ Ensemble Trans-
12 月 31 日数据作为验证集。
former）进行指定日负荷预测对比实验。各模型
在模型架构方面，采用编码器与解码器各两层
在数据预处理与模型架构上的差异如表 1 所示。
的 Transformer 结构，模型特征维度 d l 设为 128，
mode

配备 4 头自注意力机制，前馈网络隐藏层维度设表 1 不同模型的数据预处理与模型架构对比
为 256。为提升模型鲁棒性，使用差异化的 Dropout Table 1 Comparison of data preprocessing and model
概率集合 {0.2, 0.4, 0.6, 0.8}并行训练 4 个独立模 architectures across different models
型。模型优化使用 AdamW 算法，其超参数设置预测模型数据预处理特征
正弦余弦位置自注意力机制+差异化
为：初始学习率为 2×10 ，动量参数 β=(0.9, 0.999)， Ensemble Transformer
–5
编码+嵌入编码 Dropout正则化集成
权重衰减系数为 1×10 ，批量大小（batch size）为负荷序列趋势- 稀疏注意力机制+
–4
STformer [21]
128。学习率调度采用余弦退火策略，其中最小学波动分解 Dropout正则化
XGBoost关键概率稀疏自注
习率设为初始值的 1/10，周期长度设置为总训练 XGBoost+ Informer [22] 特征选择意力机制
正弦余弦位置
轮次的 1/4。为防止过拟合，在训练过程中引入标准Transformer 标准自注意力机制
编码+嵌入编码
了 Dropout 正则化技术。模型初始设定为 300 训练
LSTM / 经典LSTM结构
轮次（epoch），并采用早停策略（监控验证集损
失，耐心值设为 10）以防止过拟合。训练过程中，由于 STformer 和 XGBoost+Informer 的公开实
虽然早停条件未触发，但验证集损失下降已逐渐现细节有限，且原文献采用的数据集与本研究差
平缓，表明模型在训练周期内已达到充分收敛。异较大，为保证对比的公平性与可解释性，本实验
整个训练过程耗时约 6 小时。以本文模型为基准，依据原文描述的核心架构，对
如图 5 所示，训练损失函数值随训练轮次的影响参数量的关键维度进行合理缩放，使各对比
增加呈现单调递减趋势，其收敛过程表现出良好模型与本文模型的参数量处于相近量级（ Ense-
的稳定性。具体而言，在前 250 轮迭代过程中， mble Transformer 集成了 4 个参数量均为 65 万的标
损失值持续下降并逐渐趋于收敛；经过 300 轮训准 Transformer 模型，权重以 32 位浮点数存储）。
练后，损失值累计下降率达 97.80%。最终模型在具体而言，缩放依据为 Transformer 类模型中
参数量与隐藏维度（d ）、前馈网络维度（d ）
model ff
40
训练损失等核心维度之间的平方或线性关系。在保持原模
35
30 型注意力头数、层数等结构比例不变的前提下，
损失值/×10 4 25 按比例调整上述关键维度且模型不过拟合，使对
20
万参数范围
比模型参数量控制在大约
65
万~260
15
10
内。数据预处理均遵循各对比文献中所述方法进
5
行，以维持实验过程的一致性。
0
0 50 100 150 200 250 300
迭代轮数在预测阶段，模型采用基于滑动窗口的逐点
图 5 训练损失曲线滚动预测范式：以连续 32 个历史时刻的负荷序列
Fig. 5 Training loss curve 作为输入，依次预测下一时刻负荷值。为量化模
40

39 40 41 42 43 44 45 46 47 48 49