Page 41 - 《中国电力》2026年第5期
P. 41
张怀天等:基于 Transformer-集成学习的配电网短期负荷预测方法 2026 年第 5 期
2.3 模型架构设计 输入数据
在深度学习领域,集成学习通过协同整合多
个模型的预测结果,能够显著提升模型的泛化性 Embedding
真实值
能与鲁棒性能。
MHA
基于差异化 Dropout 正则化的集成策略为:通
过设置一组不同的 Dropout 概率参数{p , p , ···, p }, 丢弃概率p FFN&Dropout
1
2
k
反向传播算法
分别训练得到 k 个具有不同正则化强度的子模型。
该方法通过调控 Dropout 概率实现对模型稀疏性 评估器 预测值 输出数据
和学习能力的差异化控制,使得各子模型能够学
习到多样化的特征表示。相较于传统单一 Dropout 参数优化器
概率的模型,该策略在保持模型简洁性的同时, 图 3 模型构建与训练过程
能 够 更 好 地 缓 解 过 拟 合 问 题 并 增 强 模 型 的 泛 化 Fig. 3 Model construction and training process
性能。
3)多层自注意力机制:通过堆叠多头自注意
在模拟短期负荷数据的随机性波动时,传统
力层,自适应学习负荷序列的长周期依赖和短周
方法通常通过在输入中引入随机扰动噪声来实现。
期波动,并构建动态时间依赖权重矩阵,增强模
然而,此类方法易导致模型预测结果难以收敛,
型对复杂时序模式的建模能力;
并可能产生较多不符合实际规律的异常极端值。
4)前馈神经网络映射:利用 FFN 对自注意力
相比之下,Dropout 方法在训练阶段通过随机丢弃
机制输出的时序表征进行非线性变换,将其映射
部分神经元,不仅有效模拟了数据的不确定性,
至负荷预测任务的特征空间,实现高精度的短期
还从机制上保障了模型输出的收敛性与合理性。
负荷预测;
对于每个子模型(不同丢弃率),启用 Dropout
5)Dropout 正则化:在前馈神经网络中引入
进行 T 次随机前向传播,得到预测集合,即
Dropout 机制,以概率 p 随机丢弃部分神经元,抑
(p) T
{ˆy } , p ∈ {p 1 , p 2 ,··· , p k } (11)
t t=1
制模型过拟合,提高泛化性能;
(p)
式中: ˆ y t 为丢弃率为 p 的条件下第 t 次的预测结 6)损失函数优化:采用 Huber Loss 作为训练
果;k 为子模型数量。 损失函数,降低异常值对模型训练的影响,增强
在集成模型的最终预测中,采用平均组合策 预测鲁棒性;
略生成预测结果,其均值 ¯ y和方差 V ar (y)为
7)AdamW 优化策略:使用 AdamW 优化器动
1 ∑∑ (p)
¯ y = ˆ y t (12) 态 调 整 学 习 率 , 结 合 权 重 衰 减 策 略 优 化 模 型 参
kT
p t
数,提升训练稳定性和收敛效率;
1 ∑∑ (p) 2 8)模型训练:通过设置差异化的 Dropout 概
V ar (y) = (ˆy t − ¯y) (13)
kT
p t 率集合{p , p , ···, p }并行训练多个独立模型,每
1
2
k
Transformer-集成学习融合模型构建与训练过 个模型使用固定的不同丢弃率,形成预测阶段集
程如图 3 所示。 成模型所需的子模型组。
1)正弦-余弦位置编码:采用正弦-余弦函数 模型预测过程如图 4 所示。
组合的位置编码技术,将时序信息映射至单位圆 1)在训练阶段获得的子模型组中,对每个验
的极坐标表示中,显式保留时间序列的周期性特 证样本进行多次随机前向传播,通过集成不同丢
征,增强模型对时序位置的敏感性; 弃率模型及其多样化的激活模式,实现模型多样
2)数据嵌入层构建:设计融合式嵌入层,将 性增强和蒙特卡洛不确定性估计;
负 荷 数 据 的 数 值 特 征 与 周 期 性 特 征 进 行 高 维 嵌 2)基于多次预测结果的统计特性,使用 Huber
入,形成统一的特征表示,提升模型对多源信息 Loss 指标对模型预测性能进行量化评估,同时可
的捕获能力; 分析不同 p 值对预测稳定性的影响。
37

