Page 142 - 《软件学报》2025年第12期
P. 142

荣垂田 等: 多目标深度强化学习驱动的数据库系统参数优化技术                                                  5523



                                    1  ∑
                                                  Q
                 14.       Loss =       (y i  − Q(s i , a i |θ )) 2
                                    n  i
                 15.    //采样策略梯度更新 Actor 策略网络
                                 1  ∑
                                                    Q
                                           π
                              π
                 16.     ∇ θ π  J(θ ) ≈   ∇ θ π  π(s i |θ )∇ a Q(s i , a|θ )|a = π(s i )
                                 n   i
                 17.    //更新目标网络
                               Q
                          Q′
                 18.    θ  ← τθ  + (1 − τ)θ Q′
                          π′
                               π
                 19.    θ  ← τθ  + (1 − τ)θ π′
                 20.    end
                 21.   end
                 22. end
                  4   对原生多目标强化学习方法的优化
                    N-MODDPG   通过改进强化学习的奖励机制, 以适用于多目标优化场景, 避免了传统强化学习在多目标优化
                 过程中需要反复确定不同目标的权重这一弊端. 但是, 由于强化学习模型中的价值网络的更新方法是基于传统的
                 Bellman  方程, 应用到多目标场景下, 无法有效表达多个优化目标的相对重要性                   (偏好), 难以将偏好与最优策略对
                 齐, 难以动态适应或转移到不同偏好的相关任务. 因此, N-MODDPG                需要进一步改进.
                    马尔可夫决策过程       (Markov decision process, MDP) 是一种数学框架, 用于描述具有随机性和不确定性的决策
                 问题. 在  MDP  中, 系统被建模为一组状态, 每个状态之间通过某些动作进行转移, 转移可能伴随着奖励或成本.
                 MDP  具有马尔可夫性质, 即状态转移的概率只依赖于当前状态和执行的动作, 而与之前的状态序列无关.
                    而强化学习是用于解决决策问题的机器学习方法, 传统的强化学习中的                        Bellman  方程是针对马尔可夫决策过
                 程  (MDP) 提出的公式化解决方案.
                    马尔可夫决策过程       (MDP) 表示为:  < S,A,P,r,γ >, 其中  S 和  A  分别为状态和动作空间, 状态转移矩阵    P(s ,r|s,a),
                                                                                                   ′
                 标量奖励函数     r(s,a), 折扣奖励因子  γ ∈ [0,1].
                    基于马尔可夫决策过程理论的           Bellman  方程表示为:

                                                        ∑        ∑
                                          q π (s,a) = r(s,a)+γ  p(s |s,a)  π(a |s )q π (s ,a )        (6)
                                                                        ′
                                                                            ′
                                                                              ′
                                                                      ′
                                                             ′
                                                         s ′     a ′ ∈A
                                   q π (s,a) 的贝尔曼最优方程  (Bellman optimality equation) 记为:
                    状态动作价值函数

                                                          ∑
                                            q ∗ (s,a) = r(s,a)+γ  p(s |s,a)maxq ∗ (s ,a )             (7)
                                                               ′
                                                                         ′
                                                                           ′
                                                                    a ′
                                                           s ′
                    多个优化目标的决策问题与单一优化目标的决策问题有所不同, 需要重新设计一个多目标的马尔可夫决策过
                 程  [27] 数学框架用以描述多个优化目标的决策问题, 进而给出多目标强化学习针对该多个优化目标的决策问题的
                 公式化解决方案      (多目标的   Bellman  方程).
                    本文设计的多目标的马尔可夫决策过程               (MOMDP) 表示为:   < S,A,P,r,γ,W,f W >, 与  MDP  不同的是, 奖励函数
                 r(s,a) 是向量表示形式, 同时引入了偏好空间          W  体现多目标决策问题的多目标特性, 引入效用函数               f W  以体现在多
                 目标偏好空间中偏好对探索最优解的影响               [28]  . 其中效用函数   f W  可定义为:   f ω (r(s,a)) = ω r(s,a), 即效用函数的值
                                                                                     T
                 体现为在多目标场景中当前策略探索到的回报                (使用贝尔曼方程探索到的奖励的累积) 在偏好方向上的投影长度,
                 如图  8(b) 中所示. 如果式中的    ω  和  r(s,a) 为标量, 则该  MOMDP  变为标准  MDP. 为了说明单目标强化学习针对单
                 一优化目标的决策问题给出的解决方案              (贝尔曼方程) 在多目标优化场景中的缺陷, 进一步引出多目标贝尔曼方
                 程的优势, 下面引入帕累托边界和凸覆盖集              (CCS) [13] 的概念.
                                                                                               ∑
                                                                                  ⌢
                                                                                                  t
                    MOMDP   所有可能的回报可用于构成一个帕累托边界               (Pareto frontier)   F = {∄r ⩾ r}, 其中回报  ⌢ r =  γ r(s t ,a t ).
                                                                               ⌢ ′
                                                                           ∗
                                                                                                t
                 将帕累托边界中凸覆盖集         (convex coverage set, CCS) 定义为:
   137   138   139   140   141   142   143   144   145   146   147