Page 101 - 《中国电力》2026年第3期
P. 101
郑峰等:基于混合博弈强化学习的虚拟电厂市场交易策略 2026 年第 3 期
∑∑( )
D
d d ld3 d ld3 合商 j 在时段 t 的决策变量; b 为负荷聚合商 j 在
maxU (y ) = α j,t P −λ P (21) j,t
j,t j,t j,t
j=1 t=1 时段 t 的负荷效用参数。 y Dmin 、 y Dmax 分别为负荷
j j
式中: U (y )为聚合商收益函数; α j,t 为柔性负荷 聚合商 j 进行响应后的最小、最大边界。
d
d
d
j 在时段 t 参与需求响应时的效用参数; λ 为负荷 因此,社会福利最大化模型为
j,t
all G ( G ) D ( D )
聚合商 j 在时段 t 的用电报价。 maxU = U i y i +U j y j
Dmin D Dmax
根据需求响应机理可将其分为 2 种响应类型: y ≤y ≤y
j j,t j
(28)
G
价格型和激励型。价格型需求响应在负荷附近进 Gmin ≤y ≤y Gmax
y
i i,t i
s.t. ∑ ∑
行波动,并且在全时段,响应前与响应后的负荷 G D
y = y i,t
i,t
相等,因此需要满足 i=1 j=1
all
ld ld1 ld (22) 式中: U 为 VPP 的社会福利。
j,t ≤∆P
P − P
j,t
j,t
在 Stackelberg 博弈中,任意博弈者均可设为
∑ ld ∑ ld1
P = P (23)
j,t j,t 领导者,而其他博弈者作为跟随者参与博弈过程,
t=1 t=1
本 文 选 取 能 源 出 力 范 围 最 大 的 能 源 供 应 商 作 为
式中: P ld1 为负荷聚合商 j 在时段 t 的价格型需求
j,t 领导者。因此 Stackelberg 博弈过程可分为:1)各
ld
响应后的负荷; ∆P 为负荷聚合商 j 在时段 t 的价
j,t 能源供应商的有功出力策略和负荷聚合商的负荷
格型需求响应负荷波动上限。 策略上报给领导者,领导者根据上报结果得到本
激励型需求响应可中断部分负荷,但中断量 次迭代的社会效益;2)领导者对比与上一次得
不允许超过限制,因此需要满足 到的社会效益结果是否更好,进一步抉择是否更
P ld2 = kP ld (24) 新 发 布 的 出 力 或 者 负 荷 策 略 ; 3) 收 敛 到 最 优
j,t j,t
值,各跟随者上传出力信息或负荷策略,领导者
式中: P ld2 为负荷聚合商 j 在时段 t 的切负荷量;
j,t
给出具体社会效益。综上,数学模型可表示为
k 为柔性负荷可中断比例。 op [ ( ) ]
L
x p = argmax U L x op ,U (x opbest )
因此,需求响应后的负荷可表示为
∑
L ( op ) ( op )
U x = U s x
ld3 ld1 ld2
P = P − P (25)
j,t j,t j,t s=1
(29)
( )
op op op op
s.t. x
2
1
= x , x ,··· , x s
op ( ( op ))
2 基于混合博弈强化学习的模型求解方法
x s = arg max U s x p , x s
x s ∈A s
op
式中:p 为领导者的可选策略; x 为领导者采取
能源供应商的模型为
G ( G ) ∑ G G ∑ G G 策略 p 后各跟随者的最优策略集合; x opbest 为所有
maxU y = a y − b y
i i i,t i,t i,t i,t L
跟 随 者 的 最 优 策 略 ; U 为 领 导 者 的 效 益 函 数 ;
t=1 t=1 (26)
op
Gmin G Gmax
U s 为第 s 个跟随者的效益函数; x s 为第 s 个跟随
s.t. y ≤y ≤y
i i,t i
者 的 最 优 策 略 ; A s 为 第 s 个 跟 随 者 的 决 策 可 行
( )
G
式 中 : U G y 为 第 i 个 能 源 供 应 商 的 收 益 函 数 ;
op
i i 域; x p 为领导者的最优策略; x s 为第 s 个跟随者
G
G
a 为能源供应商 i 在时段 t 的发电报价; y 为能
i,t i,t
的可选策略。
源供应商 i 在时段 t 的决策变量; b 为能源供应
G
G
i,t 对于能源供应商而言,其决策变量为 x = y ;
商 i 在时段 t 的综合发电成本系数。 D
对于负荷聚合商而言,其决策变量为 x = y 。为
负荷聚合商的模型为
了使得社会效益最大化,各跟随者的目标函数都
D ( D ) ∑ D D ∑ D D
maxU y = b y − a y 应当涵盖所有博弈者的效益函数;以及为了满足
j j j,t j,t j,t j,t
t=1 t=1 (27)
自身约束条件,需要将约束条件转化为罚函数的
Dmin D Dmax
s.t. y ≤y ≤y
j j,t j
形式。
( )
式中: U D y 第 i 个负荷聚合商的收益函数; a D
D
j j j,t 此外,对于负荷聚合商而言,均有可能与其
D
为负荷聚合商 j 在时段 t 的用电报价; y 为负荷聚 他的负荷聚合商产生联系,负荷聚合商之间需要
j,t
97

