Page 42 - 《中国电力》2026年第5期

P. 42

2026 年第 59 卷

输入数据输入数据输入数据 2

v t = β 2 v t−1 +(1−β 2 )(∇L(θ t )) （16）
m t v t
ˆ m t = , ˆv t = （17）
Embedding Embedding Embedding 1−β t 1−β t
1 2
MHA MHA ... MHA ˆ m t
θ t+1 = θ t −η √ −λθ t （18）
ˆ v t +ε
FFN&Dropout FFN&Dropout FFN&Dropout
(p=p 1 ) (p=p 2 ) (p=p k ) 式中：t 为迭代次数； θ t 为模型参数； ∇L(θ t )为损
失函数的梯度；m 、v 分别为梯度的一阶矩估计
t
t
组合平均策略和二阶矩估计；β 、β 分别为用于计算一阶和二
2
1
阶矩估计的指数衰减系数； ˆ m t、分别为经过偏
ˆ v t
输出均值、方差
差修正的矩估计；η 为学习率；λ 为权重衰减系
图 4 模型预测过程数； ε为一个防止除 0 常数。
Fig. 4 Model forecasting process
损失函数可能导致优化过程中梯度在某些区

域呈现不连续性，而 AdamW 优化算法通过其动
3 配电网短期负荷预测方法量累积机制与自适应学习率调整策略，能够有效
平滑参数更新轨迹，从而提升优化稳定性。

3.1 模型参数优化方法
3.2 模型训练与预测过程
3.1.1 损失函数基于 Transformer-集成学习的配电网短期负荷
在时序预测模型中，损失函数（loss function）预测方法的核心思想为：通过配置多组具有差异
用于衡量模型预测值与真实值之间的差异，指导化的 Dropout 概率参数集合{p , p , ···, p }，分别训
2
k
1
模型通过优化算法最小化预测误差。练得到一系列结构稀疏性与特征表达能力各异的
Huber Loss 是一种结合均方误差（mean squared 子模型；在预测阶段，基于蒙特卡洛 Dropout 方
error，MSE）与平均绝对误差（mean absolute error，法，对每个子模型执行多次随机前向传播，从而
MAE）的鲁棒损失函数，其在优化过程中兼具 MSE 实现对预测分布的采样与集成融合。
的平滑收敛特性与 MAE 对异常值的鲁棒性，适该策略通过增强模型间的结构多样性，并在
用于负荷预测等存在噪声或离群点的回归任务。预测阶段引入随机机制，使模型无须新增参数即
其数学表达式为可同时捕捉电力负荷的系统性规律与随机波动，
1 2 从而提升预测精度。

 (y i − ˆy i ) , |y i − ˆy i |≤δ


 2

L δ =  （14） 3.2.1 模型训练流程
 1
 2

δ|y i − ˆy i |− δ , |y i − ˆy i |＞δ 给定训练数据集 D = {(x i ,y i )|i ∈ [1,N]}，一组预

2
设的 Dropout 概率集合 P = {p 1 , p 2 ,··· , p k }，基础网络
式中： L δ 为鲁棒损失函数值；y 为第 i 个真实值；
i
结构 Model_Base()，训练轮数 Epochs，学习率 η 以
ˆ y i为第 i 个预测值；δ 为超参数，决定了从二次函
及权重衰减系数 λ（即 AdamW 中的 weight decay 参
数到线性函数的切换点。
数），算法初始化一个空的模型集合“Models”={}。
相比于传统损失函数，Huber Loss 能够有效减
算法遍历预设的 Dropout 概率集合 P 中的每个
少异常负荷数据对预测模型的影响，从而提高预
概率 p，并执行如下步骤。
测的稳定性和准确性。
1）模型初始化：以 Model_Base() 为结构，创

3.1.2 优化算法
建一个 Dropout 率为 p 的子模型“model_p”。
采用 AdamW 优化算法，通过解耦权重衰减项
2）优化器配置：为该子模型配置 AdamW 优
与自适应梯度更新机制，有效提升了模型训练的
化器，输入参数包括模型的所有可训练参数、初
收敛效率与泛化性能。其参数更新过程可形式化
始学习率 η 以及权重衰减系数 λ。
表述为
3）迭代训练：在设定的训练轮数 Epochs 内，
m t = β 1 m t−1 +(1−β 1 )∇L(θ t ) （15）对训练数据集中的每一条样本 (x, y) 执行以下操作。
38

37 38 39 40 41 42 43 44 45 46 47