Page 44 - 《中国电力》2026年第5期
P. 44
2026 年 第 59 卷
100% n ∑ 训练集上收敛至稳定状态,此时损失函数值稳定
E MAP = y i − ˆy i (23)
n y i 维持在 7 234 左右。这一收敛特性表明:1)所采
i=1
用的优化算法具有较好的数值稳定性;2)模型
式中:n 为样本总数; y i 、 分别为 i 时刻负荷的
ˆ y i
架构具备较强的特征学习能力;3)训练过程实
实际值与预测值。
现了有效的参数探索。实验结果表明该模型在训
4.2 模型训练
练集上达到了预期的优化效果。
本研究基于 PyTorch 2.4 深度学习框架,在配
4.3 结果分析
备 NVIDIA GeForce RTX 3070 GPU 的工作站上进行
为验证所提 Transformer-集成学习融合模型的有
模型训练。实验中 2011 年 1 月 1 日至 2023 年 12 月
效性,选用 LSTM [16] 、标准 Transformer、STformer [21] 、
31 日数据作为训练集,2024 年 1 月 1 日至 2024 年
XGBoost+Informer [22] 及 本 文 模 型 ( Ensemble Trans-
12 月 31 日数据作为验证集。
former)进行指定日负荷预测对比实验。各模型
在模型架构方面,采用编码器与解码器各两层
在数据预处理与模型架构上的差异如表 1 所示。
的 Transformer 结构,模型特征维度 d l 设为 128,
mode
配备 4 头自注意力机制,前馈网络隐藏层维度设 表 1 不同模型的数据预处理与模型架构对比
为 256。为提升模型鲁棒性,使用差异化的 Dropout Table 1 Comparison of data preprocessing and model
概 率 集 合 {0.2, 0.4, 0.6, 0.8}并 行 训 练 4 个 独 立 模 architectures across different models
型。模型优化使用 AdamW 算法,其超参数设置 预测模型 数据预处理 特征
正弦余弦位置 自注意力机制+差异化
为:初始学习率为 2×10 ,动量参数 β=(0.9, 0.999), Ensemble Transformer
–5
编码+嵌入编码 Dropout正则化集成
权重衰减系数为 1×10 ,批量大小(batch size)为 负荷序列趋势- 稀疏注意力机制+
–4
STformer [21]
128。学习率调度采用余弦退火策略,其中最小学 波动分解 Dropout正则化
XGBoost关键 概率稀疏自注
习率设为初始值的 1/10,周期长度设置为总训练 XGBoost+ Informer [22] 特征选择 意力机制
正弦余弦位置
轮次的 1/4。为防止过拟合,在训练过程中引入 标准Transformer 标准自注意力机制
编码+嵌入编码
了 Dropout 正则化技术。模型初始设定为 300 训练
LSTM / 经典LSTM结构
轮次(epoch),并采用早停策略(监控验证集损
失,耐心值设为 10)以防止过拟合。训练过程中, 由 于 STformer 和 XGBoost+Informer 的 公 开 实
虽然早停条件未触发,但验证集损失下降已逐渐 现细节有限,且原文献采用的数据集与本研究差
平缓,表明模型在训练周期内已达到充分收敛。 异较大,为保证对比的公平性与可解释性,本实验
整个训练过程耗时约 6 小时。 以本文模型为基准,依据原文描述的核心架构,对
如图 5 所示,训练损失函数值随训练轮次的 影响参数量的关键维度进行合理缩放,使各对比
增加呈现单调递减趋势,其收敛过程表现出良好 模 型 与 本 文 模 型 的 参 数 量 处 于 相 近 量 级 ( Ense-
的稳定性。具体而言,在前 250 轮迭代过程中, mble Transformer 集成了 4 个参数量均为 65 万的标
损失值持续下降并逐渐趋于收敛;经过 300 轮训 准 Transformer 模型,权重以 32 位浮点数存储)。
练后,损失值累计下降率达 97.80%。最终模型在 具体而言,缩放依据为 Transformer 类模型中
参数量与隐藏维度(d )、前馈网络维度(d )
model ff
40
训练损失 等核心维度之间的平方或线性关系。在保持原模
35
30 型注意力头数、层数等结构比例不变的前提下,
损失值/×10 4 25 按比例调整上述关键维度且模型不过拟合,使对
20
万参数范围
比模型参数量控制在大约
65
万~260
15
10
内。数据预处理均遵循各对比文献中所述方法进
5
行,以维持实验过程的一致性。
0
0 50 100 150 200 250 300
迭代轮数 在预测阶段,模型采用基于滑动窗口的逐点
图 5 训练损失曲线 滚动预测范式:以连续 32 个历史时刻的负荷序列
Fig. 5 Training loss curve 作为输入,依次预测下一时刻负荷值。为量化模
40

