Page 102 - 《中国电力》2026年第3期

P. 102

2026 年第 59 卷

进行演化博弈，进而更新自身策略。当负荷聚合储能和燃气轮机）和 3 个负荷聚合商参与市场交
商 j 与第 h 个负荷聚合商存在拓扑关联时，学习易。各能源供应商的光伏、风电预测出力数据如
第 h 个负荷聚合商的策略概率 η表示为图 3 所示。各负荷聚合商的柔性负荷预测数据如
( )
U j −U h 图所示。调度周期为 24 h，每时段长度为 1 h。
( ) 4
η s j → s h = 1/ 1+e T （30）
储能装置参数如表 1 所示。
式中： s j 和 U j 分别为负荷聚合商 j 的负荷策略和
15 W1； 20
效益函数； s h 和 U h 为负荷聚合商 h 的负荷策略和 PV1；
W2；
效益函数；T 为博弈者的理性程度。 10 PV2 15
本文构建的混合博弈模型由领导者与多个跟有功功率/MW 10 有功功率/MW
随者之间的 Stackelberg 博弈，以及负荷聚合商群 5
体间的演化博弈共同组成。由于模型兼具非凸性 5
与非连续性特征，传统求解方法难以保证收敛性 0 0
00:00 04:00 08:00 12:00 16:00 20:00 24:00
与解的最优性。为此，本文采用文献 [27] 提出的时刻
混合博弈强化学习算法，该算法通过融合深度图 3 风光预测出力

Q 学习与演化博弈，能够在非合作场景下实现多 Fig. 3 Wind and solar forecast output

智能体的协同优化，其中 k 为迭代次数， k max 为 20
L1；
最大迭代数。求解框架如图 2 所示，其算法求解 18 L2；
L3
过程详见文献 [27]。 16
有功功率/MW 14

开始 12
初始化数据
10
虚拟电厂供应商利用求取负荷聚合商的分块协 00:00 04:00 08:00 12:00 16:00 20:00 24:00
8
矩阵进行动作选择同矩阵并进行动作选择
时刻
从交易中心获取其他跟随者当前的最优策略图 4 负荷聚合商的负荷预测情况
Fig. 4 Load forecasting situation of load aggregator
计算每个智能体的目标函数

表 1 储能装置参数
更新知识矩阵
Table 1 Parameters of energy storage devices
负荷聚合商的最大充放电容量/ 充放电初始荷最小荷最大荷
演化博弈
功率/MW (MW·h) 效率电状态电状态电状态
领导者修正
将当前最优策最优策略 20 80 0.95 0.5 0.4 0.9
略告知领导者

调度结果如图 5 所示，在电价较高时段 09:00—
k=k+1 k≥k max ? k=k+1
12:00 和 13:00 —23:00，负荷聚合商通过需求响
输出最优策略
应降低所需购电量，减少购电成本的同时，增加
结束自身的需求响应补偿收益。
各能源供应商的出力情况如图 6 所示。在风
图 2 求解流程
Fig. 2 Solution process 电出力较大时段 01:00 —08:00 和 20:00 —24:00

运营商优先安排风电出力参与能量市场。在光照
3 算例分析充足条件下，光伏机组处于大发状态，此时段储
能装置进行充电，用于平滑其他时段的负荷。其
为了验证所提交易策略的有效性，针对某地他风光出力较低时段则由燃气轮机机组进行补充
区设计 VPP 参与能量和辅助服务市场的交易算出力。相较于能源供应商 1，能源供应商 2 则有
例。其中，2 个能源供应商（包含风电、光伏、更多燃气轮机机组处于运行状态。

97 98 99 100 101 102 103 104 105 106 107