Page 90 - 《中国电力》2026年第4期
P. 90

2026  年 第 59 卷



              组如下。                                                         L(θ,λ) = J R (π θ )−λ(J C (π θ )−d)  (38)
                  1)功率平衡代价         C:函数     c =C(s , A ) 表示在
                                             t   t  t               该算法通过在一个           min-max  博弈中交替更新
              状态   s 执行动作     A 时产生的即时代价。此代价用
                               t
                    t
                                                                策略参数     θ(最大化     L)和拉格朗日乘子           λ(最小
              于量化对系统硬性约束的违反程度。
                                                                化  L)找到最优解。        λ的更新遵循梯度上升法,其
                  2)代价阈值      d:一个预设的标量上限,要求                    更新规则为
              策略在长期运行中,其期望累积折扣代价不能超
                                                                       λ k+1 = max(0,λ k +α λ (J C (π k )−d))  (39)
              过  d。
                                                                式中:    α λ 是更新  λ 的学习率。若当前策略的累积
                  基于   CMDP  框架,VPP     的优化调度问题定义
                                                                代价   J C 超过了阈值    d,则增大惩罚系数          λ,迫使策
              为一个约束优化问题,即
                                                                略在后续更新中更加关注降低代价(即更保守);
                                               
                                           ∞
                                         ∑     
                                               
                                                              反之,若代价满足约束,则可以适当减小                     λ,让策
                                                    (32)
                          maxJ R (π θ ) = E r∼π θ    γ r t 
                           θ                 t 
                                          t=0                   略更专注于最大化奖励。这种方式使得智能体能
                                             
                                         ∞                      够在满足安全约束的边界上,探索最优的经济效益。
                                       ∑     
                                             
                                             
                                              
                                          γ c t ≤d  (33)
                                             
                         s.t. J C (π θ ) = E r∼π θ 
                                           t                      C-PPO  算法的实现需要对标准            PPO  的结构进
                                        t=0
                                                                行扩展。在策略网络、奖励价值网络的基础上构
              式中:    J R (π θ )是策略  π θ 的期望累积奖励;     J C (π θ )是
                                                                建代价价值网络。计算奖励函数与代价优势,通
              策略   π θ 期望累积代价;      E r∼π θ  为数学期望,表示在
                                                                过将拉格朗日的目标函数整合在                 PPO  的裁剪目标
              策略  π θ 的引导下,对产生的结果求平均。
                                                                函数中。新的策略目标函数为

              4.2.2    代价函数设计                                                [                              ]
                                                                                1
                  针对   VPP  系统的核心约束,设计了代价函数                       J C-PPO (θ) ≈ E t  1+λ (clip_obj (θ,t)−λclip_obj (θ,t)
                                                                                          R
                                                                                                        C
              c 。当且仅当系统状态违反约束时,代价函数产                                                                    (40)
               t
              生正值,否则为零。                                         式中:    clip_obj 、 clip_obj 分别是基于奖励优势和
                                                                             R
                                                                                       C
                  1)功率平衡代价         c balance 对应系统最关键的能          代价优势的标准         PPO  裁切项。
                                    t
              量守恒约束,计算式                                             基于   PPO  算法的高速路域        VPP  运行优化模型
                                         S,f                流程如下。
                c balance  = (P WT  + P PV  + P Grid  + P )−(P load  + P )

                                                       S,c
                                t
                 t
                          t
                                     t
                                                 t
                                           t
                                                       t
                                                      (34)          1) 初始化。初始化策略参数、奖励、代价
                  2)储能状态代价         c storage 对应储能系统的    SOC     值函数和拉格朗日乘子。将一个完整的经验存入
                                    t
                                                                经验池,重复执行直到经验池存满。
              与充放电功率约束,计算式
                                                                    2) 计算优势函数;将经验池中状态                   S  和动
                  storage
                 c     =max(0,S OCt −S OCmax )+max(0,S OCmin −
                  t                                             作  A  输入  Critic 网络,计算  Critic 网络损失函数    Critic_
                        S OCt )+max(0,|P |− P S,max )  (35)
                                      S,t
                                                                loss 以更新   Critic 网络参数。
                  3)电网交互代价         c grid 对应与主电网的交互功
                                    t                               3) 构建损失函数;将经验池中状态集合                    S 和
              率限制,计算式                                           动作集合      A  分别输入    Actor(θ new ) 网络和  Actor(θ )
                                                                                                            old
                         grid                                   网 络 , 得 到 相 应 的 策 略 网 络 的 概 率 分 布        π(θ) 和
                        c   = max(0,|P Grid,t |− P Grid,max )  (36)
                         t
                                                                π(θ )。
                  总即时代价      c 为上述各项代价的加权和,权                       old
                              t
                                                                    4) 更新策略与值函数;更新              2  个价值网络以
              重用于调整不同约束的相对重要性,即
                                                                最 小 化 价 值 预 测 误 差 ; 根 据 奖 励 优 势 和 代 价 优
                     c t = ω 1 c balance  +ω 2 c storage  +ω 3 c grid  (37)  势,结合拉格朗日乘子,更新策略网络。
                           t
                                              t
                                     t
              式中:    ω 1 、  ω 2 、  ω 3 为权重系数。                       5)更新新的约束乘子,计算本批数据的平均

              4.3    高速路域   VPP  运行优化模型求解                       代价。
                  为了求解约束优化问题,引入拉格朗日乘子                               6) 重复迭代,直至收敛;若不满足收敛条
              λ( λ≥0) 将 其 转 化 为 一 个 等 价 的 无 约 束 优 化 问           件,则重复步骤(2)~(5),直到模型收敛。
              题。构建拉格朗日函数为                                           7) 输出优化结果。
               86
   85   86   87   88   89   90   91   92   93   94   95