Page 101 - 《中国电力》2026年第3期

P. 101

郑峰等：基于混合博弈强化学习的虚拟电厂市场交易策略 2026 年第 3 期

∑∑( )
D
d d ld3 d ld3 合商 j 在时段 t 的决策变量； b 为负荷聚合商 j 在
maxU (y ) = α j,t P −λ P （21） j,t
j,t j,t j,t
j=1 t=1 时段 t 的负荷效用参数。 y Dmin 、 y Dmax 分别为负荷
j j
式中： U (y )为聚合商收益函数； α j,t 为柔性负荷聚合商 j 进行响应后的最小、最大边界。
d
d
d
j 在时段 t 参与需求响应时的效用参数； λ 为负荷因此，社会福利最大化模型为
j,t
 all G ( G ) D ( D )
聚合商 j 在时段 t 的用电报价。  maxU = U i y i +U j y j




  Dmin D Dmax

根据需求响应机理可将其分为 2 种响应类型：  y ≤y ≤y


  j j,t j

 
  （28）

G
价格型和激励型。价格型需求响应在负荷附近进   Gmin ≤y ≤y Gmax
y


 i i,t i

s.t.  ∑ ∑

行波动，并且在全时段，响应前与响应后的负荷   G D




  y = y i,t

  i,t
 


相等，因此需要满足 i=1 j=1
all

ld ld1 ld （22）式中： U 为 VPP 的社会福利。
j,t ≤∆P
P − P
j,t
j,t
在 Stackelberg 博弈中，任意博弈者均可设为
∑ ld ∑ ld1
P = P （23）
j,t j,t 领导者，而其他博弈者作为跟随者参与博弈过程，
t=1 t=1
本文选取能源出力范围最大的能源供应商作为
式中： P ld1 为负荷聚合商 j 在时段 t 的价格型需求
j,t 领导者。因此 Stackelberg 博弈过程可分为：1）各
ld
响应后的负荷； ∆P 为负荷聚合商 j 在时段 t 的价
j,t 能源供应商的有功出力策略和负荷聚合商的负荷
格型需求响应负荷波动上限。策略上报给领导者，领导者根据上报结果得到本
激励型需求响应可中断部分负荷，但中断量次迭代的社会效益；2）领导者对比与上一次得
不允许超过限制，因此需要满足到的社会效益结果是否更好，进一步抉择是否更
P ld2 = kP ld （24）新发布的出力或者负荷策略； 3）收敛到最优
j,t j,t
值，各跟随者上传出力信息或负荷策略，领导者
式中： P ld2 为负荷聚合商 j 在时段 t 的切负荷量；
j,t
给出具体社会效益。综上，数学模型可表示为
k 为柔性负荷可中断比例。  op [ ( ) ]
L
x p = argmax U L x op ,U (x opbest )

因此，需求响应后的负荷可表示为 


  ∑
 L ( op ) ( op )
 U x = U s x


ld3 ld1 ld2  

P = P − P （25）  
j,t j,t j,t   s=1


 （29）

  ( )
  op op op op

s.t. x

2
1
  = x , x ,··· , x s
 
 
 

  op ( ( op ))

2 基于混合博弈强化学习的模型求解方法  
x s = arg max U s x p , x s



x s ∈A s
op
式中：p 为领导者的可选策略； x 为领导者采取
能源供应商的模型为
 G ( G ) ∑ G G ∑ G G 策略 p 后各跟随者的最优策略集合； x opbest 为所有
maxU y = a y − b y

 i i i,t i,t i,t i,t L
 跟随者的最优策略； U 为领导者的效益函数；

t=1 t=1 （26）

 op
 Gmin G Gmax
 U s 为第 s 个跟随者的效益函数； x s 为第 s 个跟随
 s.t. y ≤y ≤y
i i,t i
者的最优策略； A s 为第 s 个跟随者的决策可行
( )
G
式中： U G y 为第 i 个能源供应商的收益函数；
op
i i 域； x p 为领导者的最优策略； x s 为第 s 个跟随者
G
G
a 为能源供应商 i 在时段 t 的发电报价； y 为能
i,t i,t
的可选策略。
源供应商 i 在时段 t 的决策变量； b 为能源供应
G
G
i,t 对于能源供应商而言，其决策变量为 x = y ；
商 i 在时段 t 的综合发电成本系数。 D
对于负荷聚合商而言，其决策变量为 x = y 。为
负荷聚合商的模型为
了使得社会效益最大化，各跟随者的目标函数都
 D ( D ) ∑ D D ∑ D D
maxU y = b y − a y 应当涵盖所有博弈者的效益函数；以及为了满足

 j j j,t j,t j,t j,t


t=1 t=1 （27）

 自身约束条件，需要将约束条件转化为罚函数的
 Dmin D Dmax

 s.t. y ≤y ≤y
j j,t j
形式。
( )
式中： U D y 第 i 个负荷聚合商的收益函数； a D
D
j j j,t 此外，对于负荷聚合商而言，均有可能与其
D
为负荷聚合商 j 在时段 t 的用电报价； y 为负荷聚他的负荷聚合商产生联系，负荷聚合商之间需要
j,t
97

96 97 98 99 100 101 102 103 104 105 106