Page 39 - 《中国电力》2026年第5期
P. 39

张怀天等:基于         Transformer-集成学习的配电网短期负荷预测方法                            2026  年第 5 期



              2    Transformer-集成学习融合模型                         刻  t 的原始特征向量       x 可表示为
                                                                                    t
                                                                                    x t = [tc t ]
                                                                                                         (1)
              2.1    Transformer 负荷预测模型
                                                                式中:t 为时序变量,表征该时刻在日周期内的
                  Transformer 采用编码器-解码器结构,如图               1                    n
                                                                时序位置;      c t ∈ R 为连续特征向量。
              所示。编码器由多层堆叠的自注意力子层和位置
                                                                    变量   t 为离散有序型周期变量,其直接数值
              感 知 前 馈 网 络 ( position-wise feed forward network,
                                                                编码难以反映其周期性,因此,采用正弦-余弦位
              PFFN)组成,通过自注意力实现全局上下文建模,
                                                                置编码,将其映射至单位圆坐标                  e ,以保留时序
                                                                                                 t
              并保留输入序列的位置信息;解码器在编码器结
                                                                周期特性,增强模型对日内动态的建模能力。传
              构基础上引入掩码自注意力(masked self-attention,
                                                                统短期负荷预测需要依赖复杂特征工程,包括历
              MSA),确保自回归生成的因果性约束。                               史负荷、气象、节假日等人工选取特征。本文仅

                                          输出概率                  将编码后的时间信息与历史负荷作为输入,利用

                                                                Transformer 模型通过数据驱动自动学习气象、节
                                          Softmax
                                                                假日等影响因素,并借助注意力机制自适应处理
                                           Linear
                                                                特征间的相关性,避免了人工特征选择的不足。
                                                                               [  (     )   (     )]
                                                                                      t         t
                                         Add&Norm                           e t = sin 2π  ,cos 2π        (2)
                                                                                      24        24
                                  解码器    位置感知前                                           n
                                          馈网络                       原始连续特征        x cont ∈ R ,通过线性   Embedding
                        编码器                                     层统一投影得到         e cont ,与已编码的离散特征拼接,
                                         Add&Norm
                                                                形成统一的集成表示,以进行后续的自注意力计算。
                          Add&Norm
                                         多头注意力
                          位置感知前                                         e cont = W cont x cont + b cont ,e cont ∈ R d cont  (3)
                            馈网络
                                                                式 中 : W    t  为  Embedding  层 的 权 重 矩 阵 ; b  t  为
                          Add&Norm       Add&Norm                        con                              con
                                                                Embedding  层的偏置项向量;d        con t  为用于连续特征
                          多头注意力          掩码多头自
                                          注意力
                                                                的嵌入维度。
                                                                    整合后,时刻       t 的输入可表示为
                             +              +
                                                                              h t = [e t ;e cont ] ∈ R d model  (4)
                 位置编码                               位置编码
                           输入嵌入           输出嵌入
                                                                式中:    [·;·]为特征拼接;h 为时刻        t 送入  Transformer
                                                                                       t
                            输入             输出                   的特征向量,其特征维度              d model =d emb +d cont ;d em b  为
                           图 1   Transformer 模型原理               离散时间序列的嵌入维度。

                     Fig. 1    Schematic of Transformer model   2.1.2    自注意力层

                  面向配电网短期负荷预测的               Transformer 模型         在配电网运行中,多元负荷数据具有明显周
              架构包括输入嵌入层、自注意力层和全连接输出                             期性和突发波动。自注意力机制通过计算历史与
              层     3  个模块。                                     当前时刻的关联度,能够实现                2  个功能:一是选
              2.1.1    输入嵌入层                                    择性关注强相关时间点(如去年同期或近期异常
                  输入嵌入层将离散符号转化为稠密向量,实                           节点);二是自适应过滤低相关性历史信息。这
              现特征的分布式表示。连续数值特征直接输入模                             种 动 态 赋 权 方 式 突 破 了 传 统 固 定 滑 动 窗 口 的 限
              型以保留其数值信息,离散时序与类别特征通过                             制,实现了跨时段特征交互,从而更精准建模负
              嵌入学习语义关联,并加入周期编码来强化时序                             荷的复杂时序特性。
              先 验 。 嵌 入 层 能 够 显 式 建 模 时 序 规 律 和 类 别 语               多 头 自 注 意 力 机 制 ( multi-head self-attention,
              义,与连续特征协同增强模型对时序依赖和外部                             MHA) 作 为    Transformer 架 构 中 自 注 意 力 层 的 核
              协变量的表征能力,从而提升预测性能。                                心,其计算过程如下所示。
                  给定时序输入数据时间长度为                T  的序列,时             1)线性变换。

                                                                                                           35
   34   35   36   37   38   39   40   41   42   43   44