Page 42 - 《中国电力》2026年第5期
P. 42

2026  年 第 59 卷



                     输入数据        输入数据           输入数据                                              2

                                                                           v t = β 2 v t−1 +(1−β 2 )(∇L(θ t ))  (16)
                                                                                   m t        v t
                                                                              ˆ m t =  , ˆv t =         (17)
                    Embedding    Embedding      Embedding                         1−β t     1−β t
                                                                                      1         2
                      MHA         MHA      ...   MHA                                     ˆ m t
                                                                             θ t+1 = θ t −η √  −λθ t    (18)
                                                                                         ˆ v t +ε
                   FFN&Dropout  FFN&Dropout    FFN&Dropout
                     (p=p 1 )     (p=p 2 )       (p=p k )       式中:t 为迭代次数;           θ t 为模型参数;     ∇L(θ t )为损
                                                                失函数的梯度;m 、v 分别为梯度的一阶矩估计
                                                                                     t
                                                                                 t
                                 组合平均策略                         和二阶矩估计;β 、β 分别为用于计算一阶和二
                                                                                     2
                                                                                 1
                                                                阶矩估计的指数衰减系数;               ˆ m t、 分别为经过偏
                                                                                                ˆ v t
                               输出均值、方差
                                                                差修正的矩估计;η 为学习率;λ 为权重衰减系
                             图 4   模型预测过程                       数;   ε为一个防止除       0  常数。
                       Fig. 4    Model forecasting process
                                                                    损失函数可能导致优化过程中梯度在某些区

                                                                域呈现不连续性,而            AdamW  优化算法通过其动
              3    配电网短期负荷预测方法                                  量累积机制与自适应学习率调整策略,能够有效
                                                                平滑参数更新轨迹,从而提升优化稳定性。

              3.1    模型参数优化方法
                                                                3.2    模型训练与预测过程
              3.1.1    损失函数                                         基于   Transformer-集成学习的配电网短期负荷
                  在时序预测模型中,损失函数(loss function)                  预测方法的核心思想为:通过配置多组具有差异
              用于衡量模型预测值与真实值之间的差异,指导                             化的   Dropout 概率参数集合{p , p , ···, p },分别训
                                                                                              2
                                                                                                    k
                                                                                           1
              模型通过优化算法最小化预测误差。                                  练得到一系列结构稀疏性与特征表达能力各异的
                  Huber Loss 是一种结合均方误差(mean squared             子模型;在预测阶段,基于蒙特卡洛                     Dropout 方
              error,MSE)与平均绝对误差(mean absolute error,            法,对每个子模型执行多次随机前向传播,从而
              MAE)的鲁棒损失函数,其在优化过程中兼具                     MSE     实现对预测分布的采样与集成融合。
              的平滑收敛特性与           MAE  对异常值的鲁棒性,适                    该策略通过增强模型间的结构多样性,并在
              用于负荷预测等存在噪声或离群点的回归任务。                             预测阶段引入随机机制,使模型无须新增参数即
              其数学表达式为                                           可同时捕捉电力负荷的系统性规律与随机波动,
                         1      2                              从而提升预测精度。
                         
                          (y i − ˆy i ) ,  |y i − ˆy i |≤δ
                         
                         
                          2
                         
                     L δ =                           (14)      3.2.1    模型训练流程
                                 1
                                   2
                         
                         δ|y i − ˆy i |− δ ,  |y i − ˆy i |>δ      给定训练数据集         D = {(x i ,y i )|i ∈ [1,N]},一组预
                         
                                  2
                                                                设的   Dropout 概率集合    P = {p 1 , p 2 ,··· , p k },基础网络
              式中:    L δ 为鲁棒损失函数值;y 为第           i 个真实值;
                                            i
                                                                结构   Model_Base(),训练轮数      Epochs,学习率     η 以
              ˆ y i为第  i 个预测值;δ 为超参数,决定了从二次函
                                                                及权重衰减系数         λ(即  AdamW   中的  weight decay  参
              数到线性函数的切换点。
                                                                数),算法初始化一个空的模型集合“Models”={}。
                  相比于传统损失函数,Huber Loss 能够有效减
                                                                    算法遍历预设的         Dropout 概率集合    P  中的每个
              少异常负荷数据对预测模型的影响,从而提高预
                                                                概率   p,并执行如下步骤。
              测的稳定性和准确性。
                                                                    1)模型初始化:以          Model_Base() 为结构,创

              3.1.2    优化算法
                                                                建一个    Dropout 率为  p  的子模型“model_p”。
                  采用   AdamW  优化算法,通过解耦权重衰减项
                                                                    2)优化器配置:为该子模型配置                  AdamW  优
              与自适应梯度更新机制,有效提升了模型训练的
                                                                化器,输入参数包括模型的所有可训练参数、初
              收敛效率与泛化性能。其参数更新过程可形式化
                                                                始学习率     η 以及权重衰减系数         λ。
              表述为
                                                                    3)迭代训练:在设定的训练轮数                  Epochs 内,
                          m t = β 1 m t−1 +(1−β 1 )∇L(θ t )  (15)  对训练数据集中的每一条样本            (x, y) 执行以下操作。
               38
   37   38   39   40   41   42   43   44   45   46   47