Page 142 - 《软件学报》2025年第12期
P. 142
荣垂田 等: 多目标深度强化学习驱动的数据库系统参数优化技术 5523
1 ∑
Q
14. Loss = (y i − Q(s i , a i |θ )) 2
n i
15. //采样策略梯度更新 Actor 策略网络
1 ∑
Q
π
π
16. ∇ θ π J(θ ) ≈ ∇ θ π π(s i |θ )∇ a Q(s i , a|θ )|a = π(s i )
n i
17. //更新目标网络
Q
Q′
18. θ ← τθ + (1 − τ)θ Q′
π′
π
19. θ ← τθ + (1 − τ)θ π′
20. end
21. end
22. end
4 对原生多目标强化学习方法的优化
N-MODDPG 通过改进强化学习的奖励机制, 以适用于多目标优化场景, 避免了传统强化学习在多目标优化
过程中需要反复确定不同目标的权重这一弊端. 但是, 由于强化学习模型中的价值网络的更新方法是基于传统的
Bellman 方程, 应用到多目标场景下, 无法有效表达多个优化目标的相对重要性 (偏好), 难以将偏好与最优策略对
齐, 难以动态适应或转移到不同偏好的相关任务. 因此, N-MODDPG 需要进一步改进.
马尔可夫决策过程 (Markov decision process, MDP) 是一种数学框架, 用于描述具有随机性和不确定性的决策
问题. 在 MDP 中, 系统被建模为一组状态, 每个状态之间通过某些动作进行转移, 转移可能伴随着奖励或成本.
MDP 具有马尔可夫性质, 即状态转移的概率只依赖于当前状态和执行的动作, 而与之前的状态序列无关.
而强化学习是用于解决决策问题的机器学习方法, 传统的强化学习中的 Bellman 方程是针对马尔可夫决策过
程 (MDP) 提出的公式化解决方案.
马尔可夫决策过程 (MDP) 表示为: < S,A,P,r,γ >, 其中 S 和 A 分别为状态和动作空间, 状态转移矩阵 P(s ,r|s,a),
′
标量奖励函数 r(s,a), 折扣奖励因子 γ ∈ [0,1].
基于马尔可夫决策过程理论的 Bellman 方程表示为:
∑ ∑
q π (s,a) = r(s,a)+γ p(s |s,a) π(a |s )q π (s ,a ) (6)
′
′
′
′
′
s ′ a ′ ∈A
q π (s,a) 的贝尔曼最优方程 (Bellman optimality equation) 记为:
状态动作价值函数
∑
q ∗ (s,a) = r(s,a)+γ p(s |s,a)maxq ∗ (s ,a ) (7)
′
′
′
a ′
s ′
多个优化目标的决策问题与单一优化目标的决策问题有所不同, 需要重新设计一个多目标的马尔可夫决策过
程 [27] 数学框架用以描述多个优化目标的决策问题, 进而给出多目标强化学习针对该多个优化目标的决策问题的
公式化解决方案 (多目标的 Bellman 方程).
本文设计的多目标的马尔可夫决策过程 (MOMDP) 表示为: < S,A,P,r,γ,W,f W >, 与 MDP 不同的是, 奖励函数
r(s,a) 是向量表示形式, 同时引入了偏好空间 W 体现多目标决策问题的多目标特性, 引入效用函数 f W 以体现在多
目标偏好空间中偏好对探索最优解的影响 [28] . 其中效用函数 f W 可定义为: f ω (r(s,a)) = ω r(s,a), 即效用函数的值
T
体现为在多目标场景中当前策略探索到的回报 (使用贝尔曼方程探索到的奖励的累积) 在偏好方向上的投影长度,
如图 8(b) 中所示. 如果式中的 ω 和 r(s,a) 为标量, 则该 MOMDP 变为标准 MDP. 为了说明单目标强化学习针对单
一优化目标的决策问题给出的解决方案 (贝尔曼方程) 在多目标优化场景中的缺陷, 进一步引出多目标贝尔曼方
程的优势, 下面引入帕累托边界和凸覆盖集 (CCS) [13] 的概念.
∑
⌢
t
MOMDP 所有可能的回报可用于构成一个帕累托边界 (Pareto frontier) F = {∄r ⩾ r}, 其中回报 ⌢ r = γ r(s t ,a t ).
⌢ ′
∗
t
将帕累托边界中凸覆盖集 (convex coverage set, CCS) 定义为:

