Page 40 - 《中国电力》2026年第5期

P. 40

2026 年第 59 卷

对输入嵌入 h 进行线性变换，生成查询向量（9）
t
FFN(x) = max(0, xW 1 + b 1 )W 2 + b 2
Q、键向量 K 和值向量 V。
式中： x ∈ R d model 为自注意力后的隐藏向量（包含全
（5）
Q = h t W Q , K = h t W K , V = h t W V 局历史加权信息）； W 1 ∈ R d model ×d ff 为第一个全连
式中：W 、W 和 W 为可学习的权重矩阵。接权重矩阵；b 、b 为偏置向量； max(0,·)为 ReLU
V
K
2
Q
1
2）注意力权重计算。激活； W 2 ∈ R d ff ×d model 为第二个全连接权重矩阵。

自注意力机制通过计算序列内部元素间的交 2.2 Dropout 机制
互权重实现特征表征，其数学表达式为 Dropout 机制 [34] 如图 2 所示，通过在训练过程
( T )
QK 中以概率 p 随机置零部分神经元输出，强制网络
Attention(Q, K,V) = softmax √ V （6）
d K 在冗余节点缺失的情况下仍能有效学习。该正则
式中：Q 为当前预测时刻的特征；K 为历史每个化策略从 2 个层面抑制过拟合。
时刻的特征； V 为历史每个时刻的用电特征； 1）微观上，其打破神经元间的固定依赖关
d 为 K 的维度。系，促使各节点独立提取更具鲁棒性的特征；
K
注意力权重量化表征序列各位置间的相关性 2）宏观上，其等效于同步训练指数级数量的
强度，其计算过程表述为子网络（共 2 种可能结构），通过隐式模型集成
n
 
T 实现参数空间的高效平均。
Q t K 
 i 
  （7）
α t,i = softmax   √  
 
d K
普通神经网络 Dropout机制 Dropout神经网络

式中：α 为在预测当前时刻 t 时，历史时刻 i 对
i
t,
其的重要性权重。
输入1 输入1
3）加权求和。本次关闭
根据注意力权重 α ，对值向量 V 进行加权求输入2 输出输入2 输出
t,i
和，得到输出 O，即本次关闭
输入3 输入3
O = α t,i V （8）
Transformer 模型通过自注意力机制捕捉负荷
激活神经元；关闭神经元；有效连接；丢弃连接
序列中的多维时序依赖，动态量化历史负荷对当
图 2 Dropout 机制示意
前预测的影响，并构建跨周期的依赖权重矩阵。
Fig. 2 Dropout mechanism schematic
该模型能够识别季节性模式与周期性规律，同时
借助多头注意力分离特殊事件（如极端气候、节该双重作用既降低了模型对特定神经通路的
假日）对负荷的非线性影响，从而实现对负荷时过拟合风险，又通过特征分散化学习提升了网络
序特性的层次化解析。的泛化能力。

2.1.3 全连接输出层为缓解传统 Transformer 在小规模数据集上的
全连接输出层作为前馈神经网络（feed-forward 过拟合风险，通过在 FFN 层的 ReLU 激活函数后
network，FFN）的核心组成部分，采用“膨胀‑压添加 Dropout 层来进行正则化，得到正则化结果
缩”结构设计。该结构首先将注意力机制生成的 y i 为
特征映射到高维空间，以增强特征的解耦能力； y i = m i α i （10）
1− p
随后通过 ReLU 激活函数引入非线性交互，有效
i
建模特征间复杂的内在组合；最后将融合后的特式中：α 为输出向量在 ReLU 激活后的第 i 个元素；
征重新投影至目标任务空间。该设计使模型能够 p 为丢弃概率（通常 0＜p＜1）；m 为伯努利随机
i
精准捕捉负荷预测任务中的多重复杂动态，包括变量， m i ∼ Bernoulli(1−p)，即 m =1 的概率为 1–p
i
多周期规律与突发事件影响的叠加效应、气象或（保留神经元），m =0 的概率为 p（丢弃神经元）；
i
经济等协变量与历史负荷之间的耦合关系，以及分母 1–p 为缩放因子，用于保持输出的期望值不
负荷曲线自身的非平稳特性与状态切换行为。变（训练时）。

35 36 37 38 39 40 41 42 43 44 45