Page 143 - 《软件学报》2025年第12期
P. 143

5524                                                      软件学报  2025  年第  36  卷第  12  期


                                                 {                           }
                                                 ⌢              T ⌢     ⌢ ′
                                           CCS = r ∈ F |∃ω ∈ W s.t. ω r ⩾ ω r ,∀r ∈ F  ∗              (8)
                                                                     T ⌢ ′
                                                     ∗


                                       帕累托边界                      D  最优解                 ω 1
                        A
                            B
                                       CCS                        E  非最优解                    C  E  最优解
                               C
                                       非最优解                            偏好ω               C       偏好ω
                                 G
                     目标2           D            目标2           D     效用投影       目标2      L  G
                                     E                        E                               E
                                                                                                 ω 2
                          H
                                     F
                            目标1                        目标1                            目标1
                         (a) CCS和帕累托边界                (b) 偏好与最优解对齐                  (c) 偏好与最优解未对齐
                                               图 8 偏好空间中     CCS  上的最优解

                    图  8(a) 显示了  CCS  和帕累托边界的一个例子, CCS       是帕累托边界     (点  A  到  F  和  G) 的一个子集, 包括其外凸
                 边界上的所有解      (不包括点   G). 当给定特定的线性偏好        ω  时, CCS  上沿相对重要性权重     (偏好) 方向的投影长度最
                 大的点将是最优解如图        8(b) 所示.
                    如果在多目标优化场景中使用单目标强化学习方法, 即将多个优化目标简单线性组合                             (提前设置各个目标的
                 权重系数即提前固定偏好) 为单目标任务, 该情况如图                8(c) 中所示. 因为该固定偏好       (如  ω 1 或  ω 2 ) 是人为设定的
                 具有一定盲目性, 很有可能与当前策略所探索到的最大回报不对齐, 即该探索到的最大回报很有可能不是当前偏
                 好上的最优解.
                    为了更好地说明单目标强化学习在多目标应用场景下探索最优解的过程中存在的问题, 进而引出多目标强化
                 学习的解决方案, 给出了如图         8  所示的偏好空间中最优解的示意图.
                    图  8(a) 中帕累托边界在图中表示为点         A  到  F, 加上点  G, 而  CCS  是帕累托边界的子集   (点  A  到  F). 点  H  表示
                 非最优解. 图   8(b) 中从  CCS  中选择效用最高的最优解, 用偏好向量的投影长度表示. 箭头表示不同的线性偏好, 点
                 表示可能的回报. 在实线偏好下, 回报           D  的累积效用优于回报      E. 图  8(c) 中标量化的  SORL  算法在不与偏好对齐
                 (即在当前偏好下该解在偏好方向上投影长度不是最大的) 的阶段找到相对最优解, 例如                            CCS  中的两个最优解     C
                 和  E, 与偏好  ω 2 和  ω 1 不对齐. 沿着  ω 1 方向搜索的更新过程, 不能利用     ω 2 方向上的最优解    C, 最终导致非最优      L,
                 反之亦然.
                    因此单目标强化学习针对单一优化目标的决策问题给出的解决方案                         (贝尔曼方程) 在多目标优化场景中存在
                 缺陷, 不能实现偏好与最优策略          (在该策略下可以探索到当前偏好的最优解) 的快速对齐, 即不能获得当前偏好下
                 的最优解.
                    为了能在偏好空间中实现当前偏好与最优策略的快速对齐, 即获得当前偏好下的最优解, 需要修改贝尔曼方
                 程使智能体在训练过程中能够近似            MOMDP   的整个  CCS  的策略, 在整个偏好空间中进行泛化, 使          Critic 网络在更
                 新过程中能够在整个       CCS  中快速找到当前偏好下的最优解, 使该最优策略与当前偏好对齐, 进而在测试时能够适
                 应任何给定    ω ∈ Ω  的最优策略. 修改后的多目标贝尔曼方程如下.
                    多目标贝尔曼期望方程:

                                                      ∑         ∑
                                      q π (s,a,ω) = r(s,a)+γ  p(s |s,a)  π(a |s ,ω)q π (s ,a ,ω)      (9)
                                                                              ′
                                                                        ′
                                                                                ′
                                                           ′
                                                                      ′
                                                       s ′     a ′ ∈A,ω∈W
                    多目标贝尔曼最优方程:

                                                     ∑
                                     q ∗ (s,a,ω) = r(s,a)+γ  p(s |s,a) max q ∗ (s ,a,ω),a = π (s i+1 ,ω)  (10)
                                                                              ′
                                                          ′
                                                                     ′
                                                              a∈A,ω∈W
                                                      s ′
                    相比于标准的贝尔曼方程, 多目标的贝尔曼方程考虑了偏好                    ω  的影响, 多目标贝尔曼最优方程能够在偏好维
                 度上探索最优     Q  值用以更新   Critic 网络, 同时将偏好  ω  作为策略函数    π(a|s,ω) 和价值函数  q π (s,a,ω) 的输入, 如图  9
   138   139   140   141   142   143   144   145   146   147   148