Page 90 - 《中国电力》2026年第4期
P. 90
2026 年 第 59 卷
组如下。 L(θ,λ) = J R (π θ )−λ(J C (π θ )−d) (38)
1)功率平衡代价 C:函数 c =C(s , A ) 表示在
t t t 该算法通过在一个 min-max 博弈中交替更新
状态 s 执行动作 A 时产生的即时代价。此代价用
t
t
策略参数 θ(最大化 L)和拉格朗日乘子 λ(最小
于量化对系统硬性约束的违反程度。
化 L)找到最优解。 λ的更新遵循梯度上升法,其
2)代价阈值 d:一个预设的标量上限,要求 更新规则为
策略在长期运行中,其期望累积折扣代价不能超
λ k+1 = max(0,λ k +α λ (J C (π k )−d)) (39)
过 d。
式中: α λ 是更新 λ 的学习率。若当前策略的累积
基于 CMDP 框架,VPP 的优化调度问题定义
代价 J C 超过了阈值 d,则增大惩罚系数 λ,迫使策
为一个约束优化问题,即
略在后续更新中更加关注降低代价(即更保守);
∞
∑
反之,若代价满足约束,则可以适当减小 λ,让策
(32)
maxJ R (π θ ) = E r∼π θ γ r t
θ t
t=0 略更专注于最大化奖励。这种方式使得智能体能
∞ 够在满足安全约束的边界上,探索最优的经济效益。
∑
γ c t ≤d (33)
s.t. J C (π θ ) = E r∼π θ
t C-PPO 算法的实现需要对标准 PPO 的结构进
t=0
行扩展。在策略网络、奖励价值网络的基础上构
式中: J R (π θ )是策略 π θ 的期望累积奖励; J C (π θ )是
建代价价值网络。计算奖励函数与代价优势,通
策略 π θ 期望累积代价; E r∼π θ 为数学期望,表示在
过将拉格朗日的目标函数整合在 PPO 的裁剪目标
策略 π θ 的引导下,对产生的结果求平均。
函数中。新的策略目标函数为
4.2.2 代价函数设计 [ ]
1
针对 VPP 系统的核心约束,设计了代价函数 J C-PPO (θ) ≈ E t 1+λ (clip_obj (θ,t)−λclip_obj (θ,t)
R
C
c 。当且仅当系统状态违反约束时,代价函数产 (40)
t
生正值,否则为零。 式中: clip_obj 、 clip_obj 分别是基于奖励优势和
R
C
1)功率平衡代价 c balance 对应系统最关键的能 代价优势的标准 PPO 裁切项。
t
量守恒约束,计算式 基于 PPO 算法的高速路域 VPP 运行优化模型
S,f 流程如下。
c balance = (P WT + P PV + P Grid + P )−(P load + P )
S,c
t
t
t
t
t
t
t
(34) 1) 初始化。初始化策略参数、奖励、代价
2)储能状态代价 c storage 对应储能系统的 SOC 值函数和拉格朗日乘子。将一个完整的经验存入
t
经验池,重复执行直到经验池存满。
与充放电功率约束,计算式
2) 计算优势函数;将经验池中状态 S 和动
storage
c =max(0,S OCt −S OCmax )+max(0,S OCmin −
t 作 A 输入 Critic 网络,计算 Critic 网络损失函数 Critic_
S OCt )+max(0,|P |− P S,max ) (35)
S,t
loss 以更新 Critic 网络参数。
3)电网交互代价 c grid 对应与主电网的交互功
t 3) 构建损失函数;将经验池中状态集合 S 和
率限制,计算式 动作集合 A 分别输入 Actor(θ new ) 网络和 Actor(θ )
old
grid 网 络 , 得 到 相 应 的 策 略 网 络 的 概 率 分 布 π(θ) 和
c = max(0,|P Grid,t |− P Grid,max ) (36)
t
π(θ )。
总即时代价 c 为上述各项代价的加权和,权 old
t
4) 更新策略与值函数;更新 2 个价值网络以
重用于调整不同约束的相对重要性,即
最 小 化 价 值 预 测 误 差 ; 根 据 奖 励 优 势 和 代 价 优
c t = ω 1 c balance +ω 2 c storage +ω 3 c grid (37) 势,结合拉格朗日乘子,更新策略网络。
t
t
t
式中: ω 1 、 ω 2 、 ω 3 为权重系数。 5)更新新的约束乘子,计算本批数据的平均
4.3 高速路域 VPP 运行优化模型求解 代价。
为了求解约束优化问题,引入拉格朗日乘子 6) 重复迭代,直至收敛;若不满足收敛条
λ( λ≥0) 将 其 转 化 为 一 个 等 价 的 无 约 束 优 化 问 件,则重复步骤(2)~(5),直到模型收敛。
题。构建拉格朗日函数为 7) 输出优化结果。
86

