Page 89 - 《中国电力》2026年第4期
P. 89

李欣等:计及源荷双重不确定性的高速路域虚拟电厂运行优化策略                                           2026  年第 4 期



              式中:    P WT 为 t 时刻风电出力功率;          P PV 为 t 时刻    充电功率、放电功率、电网购售电功率。
                      t                           t
              光伏出力功率;        P Grid 为 t 时刻电网购电功率;       P S,c 、  4.1.3    奖励函数
                              t                          t
               S,f
              P 分别为 t 时刻储能充、放电功率;                 P load 为负荷        R  代表奖励。奖励函数综合考虑经济性、稳
               t                                   t
              t 时刻的功率。                                          定性。运行成本包括该时段设备的向电网购售电
                  电网购电功率约束为                                     成本、运行维护成本、柔性负荷调度成本、弃风
                                                                弃光成本。
                                Grid  Grid
                           0≤P    ≤P  max
                           
                                                     (25)
                                                                                          F
                                         plan                      R(t) = −(C Grid +C OM  +C )−λ(1−η)  (29)
                            Grid
                            P  − P Grid  = ∆P
                              t+1   t
                                                                式中:λ 为惩罚系数;η 为风光利用率。

              式中:    P Grid 为向电网购电最大值;          P Grid 、  P Grid 分  4.1.4    状态转移建模
                      max
                                                       t
                                                 t+1
              别为   t+1  时刻与 t 时刻从电网购电的功率;ΔP               plan
                                                                    通过概率分布或历史数据拟合确定的状态转
              为电网购电功率最大变动幅度。
                                                                移函数为
                  柔性负荷约束为
                                                                     P(S t+1 |S t ,A t ) = p(S t+1 = s |S t = s,A t = a)  (30)
                                                                                         ′
                                F    F   F
                              P  ≤P ≤P
                              
                               min       max
                                                                        t
                                                               式中:S 为时间步长                          1  为时间步
                                                                                   t 时刻的状态;S
                                                                                                  t+
                                       T ∑            (26)
                               t z ∑
                                  F       F
                                                               长                   为概率。
                                 P =    P                         t+1  时刻的状态;p
                                  tz      tz0
                              
                              
                                      t=1
                               t=t 0                            4.1.5    折扣因子
              式中:   P F  、 P F  分别为可转移负荷的下限、上限;                     折扣因子     γ用来衡量“即时奖励”和“未来长
                      min   max
               F
              P 、  P F  分别为调节前后的可转移负荷功率;t ~                     期奖励”的重要性,            γ ∈ [0,1]。在  MDP  中,目标
               tz   tz0                                   0
              t 为柔性负荷允许调节的时段。                                   不是最大化某一步的奖励              R,而是最大化长期累
               z

                                                                积回报    G 。
                                                                        t
                                                                                              ∞ ∑
              4    基于   PPO   算法的高速路域            VPP   日前          G t = R t+1 +γR t+2 +γ R t+3 +··· =  γ R t+k+1 (31)
                                                                                   2
                                                                                                 k
                  运行优化模型求解                                                                    k=0
                                                                式 中 : R   1  为  t+1  时 刻 即 时 奖 励 , 权 重 为  1; R
                                                                        t+                                   t+2
              4.1    高速路域   VPP  日前运行优化模型的马尔可                   为  t+2  时刻即时奖励,权重为          γ;R t+ 3  为  t+3  时刻即
                                                                                2
                   夫决策过程表述                                      时奖励,权重为        γ 。
                                                                                     k
                  MDP  是一种用于描述离散时间随机控制过程                            随着时间推移,         γ 会呈指数级衰减趋近于            0。
              的数学框架。一个标准的              MDP  可以表示为五元             通过引入     γ,使累计回报是一个有限的数值,算
              组:MDP=(S, A, P, R, γ)。高速路域       VPP  日前运行        法能够计算出结果。

              优化模型的      MDP  如下。                               4.2    改进的自适应算法

              4.1.1    状态空间定义                                       标 准  PPO  通 过 奖 励 函 数 来 引 导 智 能 体 , 但
                  在高速路域      VPP  中,状态空间       S 可以表示为          无法保证不触犯硬性约束。为此,引入约束策略
                                                t
                  [  PV   WT    Load   EV    b    s    SOC  ]   优化的思想,将         VPP  的调度问题建模为约束马尔
              S t = P (t),P  (t),P  (t),P  (t),S (t),S (t),S  (t)
                                                      (27)      可夫决策过程(constrained Markov decision process,
              式中:P (t) 为    t 时刻  EV  的充电功率;      S (t)、 S (t)  CMDP),并提出一种基于              C-PPO  的  VPP  优化调
                                                   b
                                                          s
                      EV
              为  t 时刻电网的购售电价格;            S  SOC (t)为  t 时刻储能   度算法。该算法的核心目标是在确保所有关键物
                                                                理约束得到严格满足的前提下,最大化                     VPP  的运
              的荷电状态。

                                                                行经济效益。
              4.1.2    动作空间定义
                                                                4.2.1    约束马尔可夫决策过程建模
                  动作空间代表的是智能体的所有动作。在高
                                                                    CMDP  是标准    MDP  的扩展,在优化目标之外
              速路域    VPP  中,动作空间      A 可以表示为
                                        t
                                                                额外定义了一组或多组与约束相关的代价函数。
                              [  S,c  S,f  Grid  ]
                          A t = P (t),P (t),P  (t)    (28)
                                                                一个   CMDP  通常由元组(       S,A,P,R,C,γ,d)定义,其
                      S,c
                             S,f
              式中:P (t)、P (t)、P      Grid (t) 分别为  t 时刻蓄电池       中 S,A,P,R,γ与标准    MDP  定义相同,新增的          2  个元
                                                                                                           85
   84   85   86   87   88   89   90   91   92   93   94