Page 40 - 《中国电力》2026年第5期
P. 40
2026 年 第 59 卷
对输入嵌入 h 进行线性变换,生成查询向量 (9)
t
FFN(x) = max(0, xW 1 + b 1 )W 2 + b 2
Q、键向量 K 和值向量 V。
式中: x ∈ R d model 为自注意力后的隐藏向量(包含全
(5)
Q = h t W Q , K = h t W K , V = h t W V 局历史加权信息); W 1 ∈ R d model ×d ff 为第一个全连
式中:W 、W 和 W 为可学习的权重矩阵。 接权重矩阵;b 、b 为偏置向量; max(0,·)为 ReLU
V
K
2
Q
1
2)注意力权重计算。 激活; W 2 ∈ R d ff ×d model 为第二个全连接权重矩阵。
自注意力机制通过计算序列内部元素间的交 2.2 Dropout 机制
互权重实现特征表征,其数学表达式为 Dropout 机制 [34] 如图 2 所示,通过在训练过程
( T )
QK 中以概率 p 随机置零部分神经元输出,强制网络
Attention(Q, K,V) = softmax √ V (6)
d K 在冗余节点缺失的情况下仍能有效学习。该正则
式中:Q 为当前预测时刻的特征;K 为历史每个 化策略从 2 个层面抑制过拟合。
时 刻 的 特 征 ; V 为 历 史 每 个 时 刻 的 用 电 特 征 ; 1)微观上,其打破神经元间的固定依赖关
d 为 K 的维度。 系,促使各节点独立提取更具鲁棒性的特征;
K
注意力权重量化表征序列各位置间的相关性 2)宏观上,其等效于同步训练指数级数量的
强度,其计算过程表述为 子网络(共 2 种可能结构),通过隐式模型集成
n
T 实现参数空间的高效平均。
Q t K
i
(7)
α t,i = softmax √
d K
普通神经网络 Dropout机制 Dropout神经网络
式中:α 为在预测当前时刻 t 时,历史时刻 i 对
i
t,
其的重要性权重。
输入1 输入1
3)加权求和。 本次关闭
根据注意力权重 α ,对值向量 V 进行加权求 输入2 输出 输入2 输出
t,i
和,得到输出 O,即 本次关闭
输入3 输入3
O = α t,i V (8)
Transformer 模型通过自注意力机制捕捉负荷
激活神经元; 关闭神经元; 有效连接; 丢弃连接
序列中的多维时序依赖,动态量化历史负荷对当
图 2 Dropout 机制示意
前预测的影响,并构建跨周期的依赖权重矩阵。
Fig. 2 Dropout mechanism schematic
该模型能够识别季节性模式与周期性规律,同时
借助多头注意力分离特殊事件(如极端气候、节 该双重作用既降低了模型对特定神经通路的
假日)对负荷的非线性影响,从而实现对负荷时 过拟合风险,又通过特征分散化学习提升了网络
序特性的层次化解析。 的泛化能力。
2.1.3 全连接输出层 为缓解传统 Transformer 在小规模数据集上的
全连接输出层作为前馈神经网络(feed-forward 过拟合风险,通过在 FFN 层的 ReLU 激活函数后
network,FFN)的核心组成部分,采用“膨胀‑压 添加 Dropout 层来进行正则化,得到正则化结果
缩”结构设计。该结构首先将注意力机制生成的 y i 为
特征映射到高维空间,以增强特征的解耦能力; y i = m i α i (10)
1− p
随后通过 ReLU 激活函数引入非线性交互,有效
i
建模特征间复杂的内在组合;最后将融合后的特 式中:α 为输出向量在 ReLU 激活后的第 i 个元素;
征重新投影至目标任务空间。该设计使模型能够 p 为丢弃概率(通常 0<p<1);m 为伯努利随机
i
精准捕捉负荷预测任务中的多重复杂动态,包括 变 量 , m i ∼ Bernoulli(1−p), 即 m =1 的 概 率 为 1–p
i
多周期规律与突发事件影响的叠加效应、气象或 (保留神经元),m =0 的概率为 p(丢弃神经元);
i
经济等协变量与历史负荷之间的耦合关系,以及 分母 1–p 为缩放因子,用于保持输出的期望值不
负荷曲线自身的非平稳特性与状态切换行为。 变(训练时)。
36

