Page 42 - 《中国电力》2026年第5期
P. 42
2026 年 第 59 卷
输入数据 输入数据 输入数据 2
v t = β 2 v t−1 +(1−β 2 )(∇L(θ t )) (16)
m t v t
ˆ m t = , ˆv t = (17)
Embedding Embedding Embedding 1−β t 1−β t
1 2
MHA MHA ... MHA ˆ m t
θ t+1 = θ t −η √ −λθ t (18)
ˆ v t +ε
FFN&Dropout FFN&Dropout FFN&Dropout
(p=p 1 ) (p=p 2 ) (p=p k ) 式中:t 为迭代次数; θ t 为模型参数; ∇L(θ t )为损
失函数的梯度;m 、v 分别为梯度的一阶矩估计
t
t
组合平均策略 和二阶矩估计;β 、β 分别为用于计算一阶和二
2
1
阶矩估计的指数衰减系数; ˆ m t、 分别为经过偏
ˆ v t
输出均值、方差
差修正的矩估计;η 为学习率;λ 为权重衰减系
图 4 模型预测过程 数; ε为一个防止除 0 常数。
Fig. 4 Model forecasting process
损失函数可能导致优化过程中梯度在某些区
域呈现不连续性,而 AdamW 优化算法通过其动
3 配电网短期负荷预测方法 量累积机制与自适应学习率调整策略,能够有效
平滑参数更新轨迹,从而提升优化稳定性。
3.1 模型参数优化方法
3.2 模型训练与预测过程
3.1.1 损失函数 基于 Transformer-集成学习的配电网短期负荷
在时序预测模型中,损失函数(loss function) 预测方法的核心思想为:通过配置多组具有差异
用于衡量模型预测值与真实值之间的差异,指导 化的 Dropout 概率参数集合{p , p , ···, p },分别训
2
k
1
模型通过优化算法最小化预测误差。 练得到一系列结构稀疏性与特征表达能力各异的
Huber Loss 是一种结合均方误差(mean squared 子模型;在预测阶段,基于蒙特卡洛 Dropout 方
error,MSE)与平均绝对误差(mean absolute error, 法,对每个子模型执行多次随机前向传播,从而
MAE)的鲁棒损失函数,其在优化过程中兼具 MSE 实现对预测分布的采样与集成融合。
的平滑收敛特性与 MAE 对异常值的鲁棒性,适 该策略通过增强模型间的结构多样性,并在
用于负荷预测等存在噪声或离群点的回归任务。 预测阶段引入随机机制,使模型无须新增参数即
其数学表达式为 可同时捕捉电力负荷的系统性规律与随机波动,
1 2 从而提升预测精度。
(y i − ˆy i ) , |y i − ˆy i |≤δ
2
L δ = (14) 3.2.1 模型训练流程
1
2
δ|y i − ˆy i |− δ , |y i − ˆy i |>δ 给定训练数据集 D = {(x i ,y i )|i ∈ [1,N]},一组预
2
设的 Dropout 概率集合 P = {p 1 , p 2 ,··· , p k },基础网络
式中: L δ 为鲁棒损失函数值;y 为第 i 个真实值;
i
结构 Model_Base(),训练轮数 Epochs,学习率 η 以
ˆ y i为第 i 个预测值;δ 为超参数,决定了从二次函
及权重衰减系数 λ(即 AdamW 中的 weight decay 参
数到线性函数的切换点。
数),算法初始化一个空的模型集合“Models”={}。
相比于传统损失函数,Huber Loss 能够有效减
算法遍历预设的 Dropout 概率集合 P 中的每个
少异常负荷数据对预测模型的影响,从而提高预
概率 p,并执行如下步骤。
测的稳定性和准确性。
1)模型初始化:以 Model_Base() 为结构,创
3.1.2 优化算法
建一个 Dropout 率为 p 的子模型“model_p”。
采用 AdamW 优化算法,通过解耦权重衰减项
2)优化器配置:为该子模型配置 AdamW 优
与自适应梯度更新机制,有效提升了模型训练的
化器,输入参数包括模型的所有可训练参数、初
收敛效率与泛化性能。其参数更新过程可形式化
始学习率 η 以及权重衰减系数 λ。
表述为
3)迭代训练:在设定的训练轮数 Epochs 内,
m t = β 1 m t−1 +(1−β 1 )∇L(θ t ) (15) 对训练数据集中的每一条样本 (x, y) 执行以下操作。
38

