Page 39 - 《中国电力》2026年第5期

P. 39

张怀天等：基于 Transformer-集成学习的配电网短期负荷预测方法 2026 年第 5 期

2 Transformer-集成学习融合模型刻 t 的原始特征向量 x 可表示为
t
x t = [tc t ]
（1）
2.1 Transformer 负荷预测模型
式中：t 为时序变量，表征该时刻在日周期内的
Transformer 采用编码器-解码器结构，如图 1 n
时序位置； c t ∈ R 为连续特征向量。
所示。编码器由多层堆叠的自注意力子层和位置
变量 t 为离散有序型周期变量，其直接数值
感知前馈网络（ position-wise feed forward network，
编码难以反映其周期性，因此，采用正弦-余弦位
PFFN）组成，通过自注意力实现全局上下文建模，
置编码，将其映射至单位圆坐标 e ，以保留时序
t
并保留输入序列的位置信息；解码器在编码器结
周期特性，增强模型对日内动态的建模能力。传
构基础上引入掩码自注意力（masked self-attention，
统短期负荷预测需要依赖复杂特征工程，包括历
MSA），确保自回归生成的因果性约束。史负荷、气象、节假日等人工选取特征。本文仅

输出概率将编码后的时间信息与历史负荷作为输入，利用

Transformer 模型通过数据驱动自动学习气象、节
Softmax
假日等影响因素，并借助注意力机制自适应处理
Linear
特征间的相关性，避免了人工特征选择的不足。
[ ( ) ( )]
t t
Add&Norm e t = sin 2π ,cos 2π （2）
24 24
解码器位置感知前 n
馈网络原始连续特征 x cont ∈ R ，通过线性 Embedding
编码器层统一投影得到 e cont ，与已编码的离散特征拼接，
Add&Norm
形成统一的集成表示，以进行后续的自注意力计算。
Add&Norm
多头注意力
位置感知前 e cont = W cont x cont + b cont ,e cont ∈ R d cont （3）
馈网络
式中： W t 为 Embedding 层的权重矩阵； b t 为
Add&Norm Add&Norm con con
Embedding 层的偏置项向量；d con t 为用于连续特征
多头注意力掩码多头自
注意力
的嵌入维度。
整合后，时刻 t 的输入可表示为
+ +
h t = [e t ;e cont ] ∈ R d model （4）
位置编码位置编码
输入嵌入输出嵌入
式中： [·;·]为特征拼接；h 为时刻 t 送入 Transformer
t
输入输出的特征向量，其特征维度 d model =d emb +d cont ；d em b 为
图 1 Transformer 模型原理离散时间序列的嵌入维度。

Fig. 1 Schematic of Transformer model 2.1.2 自注意力层

面向配电网短期负荷预测的 Transformer 模型在配电网运行中，多元负荷数据具有明显周
架构包括输入嵌入层、自注意力层和全连接输出期性和突发波动。自注意力机制通过计算历史与
层 3 个模块。当前时刻的关联度，能够实现 2 个功能：一是选
2.1.1 输入嵌入层择性关注强相关时间点（如去年同期或近期异常
输入嵌入层将离散符号转化为稠密向量，实节点）；二是自适应过滤低相关性历史信息。这
现特征的分布式表示。连续数值特征直接输入模种动态赋权方式突破了传统固定滑动窗口的限
型以保留其数值信息，离散时序与类别特征通过制，实现了跨时段特征交互，从而更精准建模负
嵌入学习语义关联，并加入周期编码来强化时序荷的复杂时序特性。
先验。嵌入层能够显式建模时序规律和类别语多头自注意力机制（ multi-head self-attention，
义，与连续特征协同增强模型对时序依赖和外部 MHA）作为 Transformer 架构中自注意力层的核
协变量的表征能力，从而提升预测性能。心，其计算过程如下所示。
给定时序输入数据时间长度为 T 的序列，时 1）线性变换。

34 35 36 37 38 39 40 41 42 43 44