Page 90 - 《中国电力》2026年第4期

P. 90

2026 年第 59 卷

组如下。 L(θ,λ) = J R (π θ )−λ(J C (π θ )−d) （38）
1）功率平衡代价 C：函数 c =C(s , A ) 表示在
t t t 该算法通过在一个 min-max 博弈中交替更新
状态 s 执行动作 A 时产生的即时代价。此代价用
t
t
策略参数 θ（最大化 L）和拉格朗日乘子 λ（最小
于量化对系统硬性约束的违反程度。
化 L）找到最优解。 λ的更新遵循梯度上升法，其
2）代价阈值 d：一个预设的标量上限，要求更新规则为
策略在长期运行中，其期望累积折扣代价不能超
λ k+1 = max(0,λ k +α λ (J C (π k )−d)) （39）
过 d。
式中： α λ 是更新 λ 的学习率。若当前策略的累积
基于 CMDP 框架，VPP 的优化调度问题定义
代价 J C 超过了阈值 d，则增大惩罚系数 λ，迫使策
为一个约束优化问题，即
略在后续更新中更加关注降低代价（即更保守）；
 
∞
∑ 
 
  反之，若代价满足约束，则可以适当减小 λ，让策
  （32）
maxJ R (π θ ) = E r∼π θ   γ r t 
θ  t 
t=0 略更专注于最大化奖励。这种方式使得智能体能
 
∞ 够在满足安全约束的边界上，探索最优的经济效益。
∑ 
 
 

 γ c t ≤d （33）
 
s.t. J C (π θ ) = E r∼π θ 
 t  C-PPO 算法的实现需要对标准 PPO 的结构进
t=0
行扩展。在策略网络、奖励价值网络的基础上构
式中： J R (π θ )是策略 π θ 的期望累积奖励； J C (π θ )是
建代价价值网络。计算奖励函数与代价优势，通
策略 π θ 期望累积代价； E r∼π θ 为数学期望，表示在
过将拉格朗日的目标函数整合在 PPO 的裁剪目标
策略 π θ 的引导下，对产生的结果求平均。
函数中。新的策略目标函数为

4.2.2 代价函数设计 [ ]
1
针对 VPP 系统的核心约束，设计了代价函数 J C-PPO (θ) ≈ E t 1+λ (clip_obj (θ,t)−λclip_obj (θ,t)
R
C
c 。当且仅当系统状态违反约束时，代价函数产（40）
t
生正值，否则为零。式中： clip_obj 、 clip_obj 分别是基于奖励优势和
R
C
1）功率平衡代价 c balance 对应系统最关键的能代价优势的标准 PPO 裁切项。
t
量守恒约束，计算式基于 PPO 算法的高速路域 VPP 运行优化模型
S,f 流程如下。
c balance = (P WT + P PV + P Grid + P )−(P load + P )

S,c
t
t
t
t
t
t
t
（34） 1）初始化。初始化策略参数、奖励、代价
2）储能状态代价 c storage 对应储能系统的 SOC 值函数和拉格朗日乘子。将一个完整的经验存入
t
经验池，重复执行直到经验池存满。
与充放电功率约束，计算式
2）计算优势函数；将经验池中状态 S 和动
storage
c =max(0,S OCt −S OCmax )+max(0,S OCmin −
t 作 A 输入 Critic 网络，计算 Critic 网络损失函数 Critic_
S OCt )+max(0,|P |− P S,max ) （35）
S,t
loss 以更新 Critic 网络参数。
3）电网交互代价 c grid 对应与主电网的交互功
t 3) 构建损失函数；将经验池中状态集合 S 和
率限制，计算式动作集合 A 分别输入 Actor(θ new ) 网络和 Actor(θ )
old
grid 网络，得到相应的策略网络的概率分布 π(θ) 和
c = max(0,|P Grid,t |− P Grid,max ) （36）
t
π(θ )。
总即时代价 c 为上述各项代价的加权和，权 old
t
4）更新策略与值函数；更新 2 个价值网络以
重用于调整不同约束的相对重要性，即
最小化价值预测误差；根据奖励优势和代价优
c t = ω 1 c balance +ω 2 c storage +ω 3 c grid （37）势，结合拉格朗日乘子，更新策略网络。
t
t
t
式中： ω 1 、 ω 2 、 ω 3 为权重系数。 5）更新新的约束乘子，计算本批数据的平均

4.3 高速路域 VPP 运行优化模型求解代价。
为了求解约束优化问题，引入拉格朗日乘子 6）重复迭代，直至收敛；若不满足收敛条
λ（ λ≥0）将其转化为一个等价的无约束优化问件，则重复步骤（2）~（5），直到模型收敛。
题。构建拉格朗日函数为 7）输出优化结果。
86

85 86 87 88 89 90 91 92 93 94 95