Page 40 - 《中国电力》2026年第5期
P. 40

2026  年 第 59 卷



                  对输入嵌入      h 进行线性变换,生成查询向量                                                             (9)
                               t
                                                                         FFN(x) = max(0, xW 1 + b 1 )W 2 + b 2
              Q、键向量     K  和值向量    V。
                                                                式中:    x ∈ R d model 为自注意力后的隐藏向量(包含全
                                                       (5)
                       Q = h t W Q , K = h t W K , V = h t W V  局历史加权信息);           W 1 ∈ R d model ×d ff  为第一个全连
              式中:W 、W 和        W 为可学习的权重矩阵。                     接权重矩阵;b 、b 为偏置向量;               max(0,·)为  ReLU
                                 V
                           K
                                                                                  2
                      Q
                                                                              1
                  2)注意力权重计算。                                    激活;    W 2 ∈ R d ff ×d model 为第二个全连接权重矩阵。

                  自注意力机制通过计算序列内部元素间的交                           2.2    Dropout 机制
              互权重实现特征表征,其数学表达式为                                     Dropout 机制  [34]  如图  2  所示,通过在训练过程
                                           (   T  )
                                            QK                  中以概率     p  随机置零部分神经元输出,强制网络
                    Attention(Q, K,V) = softmax √  V   (6)
                                              d K               在冗余节点缺失的情况下仍能有效学习。该正则
              式中:Q     为当前预测时刻的特征;K              为历史每个          化策略从     2  个层面抑制过拟合。
              时 刻 的 特 征 ; V   为 历 史 每 个 时 刻 的 用 电 特 征 ;             1)微观上,其打破神经元间的固定依赖关
              d 为  K  的维度。                                      系,促使各节点独立提取更具鲁棒性的特征;
               K
                  注意力权重量化表征序列各位置间的相关性                               2)宏观上,其等效于同步训练指数级数量的
              强度,其计算过程表述为                                       子网络(共      2 种可能结构),通过隐式模型集成
                                                                            n
                                            
                                            T                   实现参数空间的高效平均。
                                        Q t K 
                                           i 
                                                     (7)
                            α t,i = softmax   √   
                                            
                                           d K
                                                                     普通神经网络       Dropout机制   Dropout神经网络

              式中:α 为在预测当前时刻               t 时,历史时刻       i 对
                       i
                      t,
              其的重要性权重。
                                                                 输入1                     输入1
                  3)加权求和。                                                                            本次关闭
                  根据注意力权重         α ,对值向量      V  进行加权求          输入2               输出    输入2               输出
                                   t,i
              和,得到输出       O,即                                                                       本次关闭
                                                                 输入3                     输入3
                                 O = α t,i V           (8)
                  Transformer 模型通过自注意力机制捕捉负荷
                                                                    激活神经元;     关闭神经元;    有效连接;      丢弃连接
              序列中的多维时序依赖,动态量化历史负荷对当
                                                                              图 2   Dropout 机制示意
              前预测的影响,并构建跨周期的依赖权重矩阵。
                                                                        Fig. 2    Dropout mechanism schematic
              该模型能够识别季节性模式与周期性规律,同时
              借助多头注意力分离特殊事件(如极端气候、节                                 该双重作用既降低了模型对特定神经通路的
              假日)对负荷的非线性影响,从而实现对负荷时                             过拟合风险,又通过特征分散化学习提升了网络
              序特性的层次化解析。                                        的泛化能力。

              2.1.3    全连接输出层                                       为缓解传统       Transformer 在小规模数据集上的
                  全连接输出层作为前馈神经网络(feed-forward                   过拟合风险,通过在            FFN  层的  ReLU  激活函数后
              network,FFN)的核心组成部分,采用“膨胀‑压                       添加   Dropout 层来进行正则化,得到正则化结果
              缩”结构设计。该结构首先将注意力机制生成的                             y i 为
              特征映射到高维空间,以增强特征的解耦能力;                                               y i = m i  α i        (10)
                                                                                        1− p
              随后通过     ReLU  激活函数引入非线性交互,有效
                                                                        i
              建模特征间复杂的内在组合;最后将融合后的特                             式中:α 为输出向量在           ReLU  激活后的第     i 个元素;
              征重新投影至目标任务空间。该设计使模型能够                             p  为丢弃概率(通常        0<p<1);m 为伯努利随机
                                                                                                 i
              精准捕捉负荷预测任务中的多重复杂动态,包括                             变 量 ,  m i ∼ Bernoulli(1−p), 即  m =1 的 概 率 为  1–p
                                                                                              i
              多周期规律与突发事件影响的叠加效应、气象或                             (保留神经元),m =0         的概率为     p(丢弃神经元);
                                                                                  i
              经济等协变量与历史负荷之间的耦合关系,以及                             分母   1–p  为缩放因子,用于保持输出的期望值不
              负荷曲线自身的非平稳特性与状态切换行为。                              变(训练时)。

               36
   35   36   37   38   39   40   41   42   43   44   45