Page 41 - 《中国电力》2026年第5期

P. 41

张怀天等：基于 Transformer-集成学习的配电网短期负荷预测方法 2026 年第 5 期

2.3 模型架构设计输入数据
在深度学习领域，集成学习通过协同整合多
个模型的预测结果，能够显著提升模型的泛化性 Embedding
真实值
能与鲁棒性能。
MHA
基于差异化 Dropout 正则化的集成策略为：通
过设置一组不同的 Dropout 概率参数{p , p , ···, p }，丢弃概率p FFN&Dropout
1
2
k
反向传播算法
分别训练得到 k 个具有不同正则化强度的子模型。
该方法通过调控 Dropout 概率实现对模型稀疏性评估器预测值输出数据
和学习能力的差异化控制，使得各子模型能够学
习到多样化的特征表示。相较于传统单一 Dropout 参数优化器
概率的模型，该策略在保持模型简洁性的同时，图 3 模型构建与训练过程
能够更好地缓解过拟合问题并增强模型的泛化 Fig. 3 Model construction and training process
性能。
3）多层自注意力机制：通过堆叠多头自注意
在模拟短期负荷数据的随机性波动时，传统
力层，自适应学习负荷序列的长周期依赖和短周
方法通常通过在输入中引入随机扰动噪声来实现。
期波动，并构建动态时间依赖权重矩阵，增强模
然而，此类方法易导致模型预测结果难以收敛，
型对复杂时序模式的建模能力；
并可能产生较多不符合实际规律的异常极端值。
4）前馈神经网络映射：利用 FFN 对自注意力
相比之下，Dropout 方法在训练阶段通过随机丢弃
机制输出的时序表征进行非线性变换，将其映射
部分神经元，不仅有效模拟了数据的不确定性，
至负荷预测任务的特征空间，实现高精度的短期
还从机制上保障了模型输出的收敛性与合理性。
负荷预测；
对于每个子模型（不同丢弃率），启用 Dropout
5）Dropout 正则化：在前馈神经网络中引入
进行 T 次随机前向传播，得到预测集合，即
Dropout 机制，以概率 p 随机丢弃部分神经元，抑
(p) T
{ˆy } , p ∈ {p 1 , p 2 ,··· , p k } （11）
t t=1
制模型过拟合，提高泛化性能；
(p)
式中： ˆ y t 为丢弃率为 p 的条件下第 t 次的预测结 6）损失函数优化：采用 Huber Loss 作为训练
果；k 为子模型数量。损失函数，降低异常值对模型训练的影响，增强
在集成模型的最终预测中，采用平均组合策预测鲁棒性；
略生成预测结果，其均值 ¯ y和方差 V ar (y)为
7）AdamW 优化策略：使用 AdamW 优化器动
1 ∑∑ (p)
¯ y = ˆ y t （12）态调整学习率，结合权重衰减策略优化模型参
kT
p t
数，提升训练稳定性和收敛效率；
1 ∑∑ (p) 2 8）模型训练：通过设置差异化的 Dropout 概
V ar (y) = (ˆy t − ¯y) （13）
kT
p t 率集合{p , p , ···, p }并行训练多个独立模型，每
1
2
k
Transformer-集成学习融合模型构建与训练过个模型使用固定的不同丢弃率，形成预测阶段集
程如图 3 所示。成模型所需的子模型组。
1）正弦-余弦位置编码：采用正弦-余弦函数模型预测过程如图 4 所示。
组合的位置编码技术，将时序信息映射至单位圆 1）在训练阶段获得的子模型组中，对每个验
的极坐标表示中，显式保留时间序列的周期性特证样本进行多次随机前向传播，通过集成不同丢
征，增强模型对时序位置的敏感性；弃率模型及其多样化的激活模式，实现模型多样
2）数据嵌入层构建：设计融合式嵌入层，将性增强和蒙特卡洛不确定性估计；
负荷数据的数值特征与周期性特征进行高维嵌 2）基于多次预测结果的统计特性，使用 Huber
入，形成统一的特征表示，提升模型对多源信息 Loss 指标对模型预测性能进行量化评估，同时可
的捕获能力；分析不同 p 值对预测稳定性的影响。

36 37 38 39 40 41 42 43 44 45 46