Page 101 - 《中国电力》2026年第3期
P. 101

郑峰等:基于混合博弈强化学习的虚拟电厂市场交易策略                                           2026  年第 3 期



                              ∑∑(                 )
                                                                                            D
                        d  d            ld3  d  ld3             合商   j 在时段   t 的决策变量;      b 为负荷聚合商        j 在
                   maxU (y ) =       α j,t P  −λ P    (21)                                  j,t
                                         j,t  j,t  j,t
                              j=1 t=1                           时段   t 的负荷效用参数。         y Dmin 、 y Dmax 分别为负荷
                                                                                         j      j
              式中:    U (y )为聚合商收益函数;           α j,t 为柔性负荷      聚合商    j 进行响应后的最小、最大边界。
                      d
                         d
                                                    d
              j 在时段   t 参与需求响应时的效用参数;              λ 为负荷            因此,社会福利最大化模型为
                                                    j,t
                                                                                all   G  (  G  )  D  (  D )
              聚合商    j 在时段   t 的用电报价。                                       maxU  = U i  y i  +U j  y j
                                                                           
                                                                           
                                                                           
                                                                           
                                                                               Dmin  D   Dmax
                                                                           
                  根据需求响应机理可将其分为                2  种响应类型:                     y    ≤y ≤y
                                                                           
                                                                           
                                                                              j      j,t  j
                                                                              
                                                                             
                                                                                                      (28)
                                                                              
                                                                                       G
              价格型和激励型。价格型需求响应在负荷附近进                                           Gmin ≤y ≤y Gmax
                                                                              y
                                                                              
                                                                           
                                                                               i      i,t  i
                                                                           
                                                                           s.t.  ∑   ∑
                                                                              
              行波动,并且在全时段,响应前与响应后的负荷                                              G       D
                                                                           
                                                                           
                                                                              
                                                                           
                                                                                 y =    y i,t
                                                                              
                                                                                 i,t
                                                                             
                                                                           
                                                                              
              相等,因此需要满足                                                         i=1    j=1
                                                                      all

                               ld  ld1   ld        (22)      式中:    U 为  VPP  的社会福利。
                                    j,t  ≤∆P
                              P − P
                                j,t
                                           j,t
                                                                    在  Stackelberg  博弈中,任意博弈者均可设为
                              ∑   ld  ∑   ld1
                                 P =     P            (23)
                                   j,t    j,t                   领导者,而其他博弈者作为跟随者参与博弈过程,
                               t=1    t=1
                                                                本 文 选 取 能 源 出 力 范 围 最 大 的 能 源 供 应 商 作 为
              式中:    P ld1 为负荷聚合商     j 在时段   t 的价格型需求
                      j,t                                       领导者。因此        Stackelberg  博弈过程可分为:1)各
                                ld
              响应后的负荷;        ∆P 为负荷聚合商         j 在时段   t 的价
                                j,t                             能源供应商的有功出力策略和负荷聚合商的负荷
              格型需求响应负荷波动上限。                                     策略上报给领导者,领导者根据上报结果得到本
                  激励型需求响应可中断部分负荷,但中断量                           次迭代的社会效益;2)领导者对比与上一次得
              不允许超过限制,因此需要满足                                    到的社会效益结果是否更好,进一步抉择是否更
                                 P ld2  = kP ld       (24)      新 发 布 的 出 力 或 者 负 荷 策 略 ; 3) 收 敛 到 最 优
                                  j,t   j,t
                                                                值,各跟随者上传出力信息或负荷策略,领导者
              式中:    P ld2 为负荷聚合商     j 在时段    t 的切负荷量;
                      j,t
                                                                给出具体社会效益。综上,数学模型可表示为
              k 为柔性负荷可中断比例。                                             op       [  (   )         ]
                                                                                            L
                                                                      x p = argmax U L  x op  ,U (x opbest )
                                                                      
                  因此,需求响应后的负荷可表示为                                     
                                                                      
                                                                      
                                                                                 ∑
                                                                           L  (  op )   (  op  )
                                                                        U   x   =   U s x
                                                                         
                                                                      
                                ld3  ld1  ld2                           
                                                                      
                              P   = P  − P            (25)              
                                j,t  j,t  j,t                                     s=1
                                                                         
                                                                      
                                                                                                       (29)
                                                                         
                                                                             (             )
                                                                          op   op  op    op
                                                                      
                                                                      s.t. x
                                                                      
                                                                                     2
                                                                                 1
                                                                            = x , x ,··· , x s
                                                                        
                                                                        
                                                                        
                                                                         
                                                                         op         (  (  op  ))
                                                                      
              2    基于混合博弈强化学习的模型求解方法                                    
                                                                         x s = arg max U s x p , x s
                                                                      
                                                                      
                                                                         
                                                                                  x s ∈A s
                                                                                                op
                                                                式中:p    为领导者的可选策略;             x 为领导者采取
                  能源供应商的模型为
                         G  (  G )  ∑  G G  ∑  G G             策略   p  后各跟随者的最优策略集合;              x opbest 为所有
                    maxU   y  =    a y −    b y
                    
                         i  i       i,t i,t  i,t i,t                                  L
                                                               跟 随 者 的 最 优 策 略 ;    U 为 领 导 者 的 效 益 函 数 ;
                    
                                 t=1       t=1        (26)
                    
                                                                                               op
                       Gmin   G   Gmax
                                                               U s 为第  s 个跟随者的效益函数;           x s 为第  s 个跟随
                     s.t. y  ≤y ≤y
                        i      i,t  i
                                                                者 的 最 优 策 略 ;    A s 为 第  s 个 跟 随 者 的 决 策 可 行
                        (  )
                          G
              式 中 :  U G  y 为 第  i 个 能 源 供 应 商 的 收 益 函 数 ;
                                                                      op
                       i  i                                     域;   x p 为领导者的最优策略;           x s 为第  s 个跟随者
                                                      G
               G
              a 为能源供应商        i 在时段    t 的发电报价;      y 为能
               i,t                                    i,t
                                                                的可选策略。
              源供应商     i 在时段    t 的决策变量;      b 为能源供应
                                               G
                                                                                                            G
                                               i,t                  对于能源供应商而言,其决策变量为                    x = y ;
              商  i 在时段  t 的综合发电成本系数。                                                                     D
                                                                对于负荷聚合商而言,其决策变量为                     x = y 。为
                  负荷聚合商的模型为
                                                                了使得社会效益最大化,各跟随者的目标函数都
                         D  (  D )  ∑  D D  ∑  D D
                   maxU    y  =    b y −    a y                应当涵盖所有博弈者的效益函数;以及为了满足
                   
                         j  j       j,t j,t  j,t j,t
                   
                   
                                 t=1       t=1        (27)
                   
                                                               自身约束条件,需要将约束条件转化为罚函数的
                       Dmin  D    Dmax
                   
                    s.t. y  ≤y ≤y
                        j      j,t  j
                                                                形式。
                        (  )
              式中:    U D  y 第  i 个负荷聚合商的收益函数;             a D
                         D
                      j   j                                j,t      此外,对于负荷聚合商而言,均有可能与其
                                                  D
              为负荷聚合商       j 在时段   t 的用电报价;      y 为负荷聚         他的负荷聚合商产生联系,负荷聚合商之间需要
                                                  j,t
                                                                                                           97
   96   97   98   99   100   101   102   103   104   105   106