Page 41 - 《中国电力》2026年第5期
P. 41

张怀天等:基于         Transformer-集成学习的配电网短期负荷预测方法                            2026  年第 5 期




              2.3    模型架构设计                                                           输入数据
                  在深度学习领域,集成学习通过协同整合多
              个模型的预测结果,能够显著提升模型的泛化性                                                   Embedding
                                                                    真实值
              能与鲁棒性能。
                                                                                       MHA
                  基于差异化      Dropout 正则化的集成策略为:通
              过设置一组不同的          Dropout 概率参数{p , p , ···, p },           丢弃概率p       FFN&Dropout
                                                 1
                                                    2
                                                          k
                                                                                                  反向传播算法
              分别训练得到       k 个具有不同正则化强度的子模型。
              该方法通过调控         Dropout 概率实现对模型稀疏性                       评估器      预测值   输出数据
              和学习能力的差异化控制,使得各子模型能够学
              习到多样化的特征表示。相较于传统单一                      Dropout                        参数优化器
              概率的模型,该策略在保持模型简洁性的同时,                                          图 3   模型构建与训练过程
              能 够 更 好 地 缓 解 过 拟 合 问 题 并 增 强 模 型 的 泛 化               Fig. 3    Model construction and training process
              性能。
                                                                    3)多层自注意力机制:通过堆叠多头自注意
                  在模拟短期负荷数据的随机性波动时,传统
                                                                力层,自适应学习负荷序列的长周期依赖和短周
              方法通常通过在输入中引入随机扰动噪声来实现。
                                                                期波动,并构建动态时间依赖权重矩阵,增强模
              然而,此类方法易导致模型预测结果难以收敛,
                                                                型对复杂时序模式的建模能力;
              并可能产生较多不符合实际规律的异常极端值。
                                                                    4)前馈神经网络映射:利用              FFN  对自注意力
              相比之下,Dropout 方法在训练阶段通过随机丢弃
                                                                机制输出的时序表征进行非线性变换,将其映射
              部分神经元,不仅有效模拟了数据的不确定性,
                                                                至负荷预测任务的特征空间,实现高精度的短期
              还从机制上保障了模型输出的收敛性与合理性。
                                                                负荷预测;
                  对于每个子模型(不同丢弃率),启用                   Dropout
                                                                    5)Dropout 正则化:在前馈神经网络中引入
              进行   T  次随机前向传播,得到预测集合,即
                                                                Dropout 机制,以概率       p  随机丢弃部分神经元,抑
                           (p) T
                          {ˆy }  , p ∈ {p 1 , p 2 ,··· , p k }  (11)
                           t  t=1
                                                                制模型过拟合,提高泛化性能;
                      (p)
              式中:    ˆ y t 为丢弃率为   p  的条件下第     t 次的预测结             6)损失函数优化:采用             Huber Loss 作为训练
              果;k 为子模型数量。                                       损失函数,降低异常值对模型训练的影响,增强
                  在集成模型的最终预测中,采用平均组合策                           预测鲁棒性;
              略生成预测结果,其均值             ¯ y和方差 V ar (y)为
                                                                    7)AdamW    优化策略:使用        AdamW   优化器动
                                  1  ∑∑    (p)
                              ¯ y =       ˆ y t       (12)      态 调 整 学 习 率 , 结 合 权 重 衰 减 策 略 优 化 模 型 参
                                 kT
                                     p  t
                                                                数,提升训练稳定性和收敛效率;
                                 1  ∑∑     (p)  2                   8)模型训练:通过设置差异化的                  Dropout 概
                          V ar (y) =     (ˆy t  − ¯y)  (13)
                                 kT
                                    p  t                        率集合{p , p , ···, p }并行训练多个独立模型,每
                                                                         1
                                                                            2
                                                                                  k
                  Transformer-集成学习融合模型构建与训练过                    个模型使用固定的不同丢弃率,形成预测阶段集
              程如图    3  所示。                                     成模型所需的子模型组。
                  1)正弦-余弦位置编码:采用正弦-余弦函数                             模型预测过程如图          4  所示。
              组合的位置编码技术,将时序信息映射至单位圆                                 1)在训练阶段获得的子模型组中,对每个验
              的极坐标表示中,显式保留时间序列的周期性特                             证样本进行多次随机前向传播,通过集成不同丢
              征,增强模型对时序位置的敏感性;                                  弃率模型及其多样化的激活模式,实现模型多样
                  2)数据嵌入层构建:设计融合式嵌入层,将                          性增强和蒙特卡洛不确定性估计;
              负 荷 数 据 的 数 值 特 征 与 周 期 性 特 征 进 行 高 维 嵌               2)基于多次预测结果的统计特性,使用                   Huber
              入,形成统一的特征表示,提升模型对多源信息                             Loss 指标对模型预测性能进行量化评估,同时可
              的捕获能力;                                            分析不同     p  值对预测稳定性的影响。

                                                                                                           37
   36   37   38   39   40   41   42   43   44   45   46