Page 148 - 《软件学报》2025年第12期
P. 148
荣垂田 等: 多目标深度强化学习驱动的数据库系统参数优化技术 5529
数据库的性能的峰值达到 (吞吐量: 2 528.2 T/s, 延迟: 215.9 ms), 相比于使用默认配置参数的 MySQL 数据库的性
能 (吞吐量: 228.8 T/s, 延迟: 1 517.7 ms), 其吞吐量提升了 10 倍左右, 延迟大约降低至 1/7 (见表 5).
表 5 各种工作负载下不同方法的性能 (吞吐量 (T/s), 延迟 (ms)) 的平均值和峰值对比
DDPG ON-MODDPG
工作负载 MySQL default
平均值 峰值 平均值 峰值
TPC-C (228.8, 1 517.7) (1 470.4, 1 480.0) (3 099.6, 190.0) (2 299.0, 1 042.3) (3 639.0, 111.9)
RW (125.7, 1 479.4) (1 611.8, 2 490.7) (6 393.5, 37.4) (2 829.3, 1 069.8) (10 754.6, 23.3)
RO (591.5, 223.3) (12 268.8, 48.8) (27 195.3, 9.0) (12 219.8, 82.7) (27 596.4, 8.7)
WO (145.8, 1 352.0) (3 319.6, 408.2) (24 626.1, 10.9) (4 133.3, 370.9) (22 634.2, 10.0)
使用 ON-MODDPG 方法推荐的优化参数的 MySQL 数据库性能的峰值达到了 (吞吐量: 3 639.0 T/s, 延迟:
111.9 ms), 相比于使用 N-MODDPG 方法推荐的优化参数的 MySQL 数据库, 其吞吐量提升了 44% 左右, 延迟大约
降低了 48%.
使用 N-MODDPG 和 ON-MODDPG 方法推荐的参数使得 MySQL 数据库性能比使用默认参数的 MySQL 的
性能得到了明显的提升, 主要是因为基于强化学习的数据库参数优化方法可以自动从数据库环境中提取当前的环
境状态, 以试错的方式根据当前状态做出动作 (推荐参数) 进而得到对当前动作的奖励, 当数据库重启以使配置参
数生效 (即当前数据库状态发生改变), 则重复上述过程以使累积的奖励最大化, 从而推荐可以使数据库达到更高
性能的配置参数.
6.3 ON-MODDPG 在数据库参数优化方面的优势
为了验证多目标强化学习在数据库参数优化这一多目标优化任务方面的优势, 在容器实例 Tuner1 上对模型
DDPG 和 MODDPG 进行了对比实验. 通过表 6 的实验结果可以看出, 在样本数为 200 的情况下 ON-MODDPG 模
型推荐的参数可以使 MySQL 数据库的性能比使用 DDPG 模型推荐的参数的 MySQL 数据库的吞吐量提升了
22%、延迟降低了约 40%; 在样本数为 400 的情况下, 数据库的吞吐量提升了 14%、延迟降低了约 34%. 因此, 多
目标强化学习在同样的训练样本量的情况下具有明显的优势, 这得益于 ON-MODDPG 使用了多目标强化学习针
对多个优化目标的决策问题的公式化解决方案 (多目标的 Bellman 方程), 其在 Critic 网络更新过程中能够在整个
CCS 中快速找到当前偏好下的最优解, 使该最优策略与当前偏好对齐. 如表 6 的实验结果所示, ON-MODDPG 方
法可以在同样有限的训练样本下探索到更优的配置参数使数据库系统达到更优的性能.
表 6 探索更优配置参数效率对比
DDPG最优性能 ON-MODDPG最优性能
样本数
吞吐量 (T/s) 延迟 (ms) 吞吐量 (T/s) 延迟 (ms)
200 2 848.20 236.14 3 486.10 143.43
400 3 071.99 192.68 3 516.20 127.26
6.4 不同负载下与已有参数调优方法的对比
(1) 基于 TPC-C 的性能对比
+
将本文使用 ON-MODDPG 算法的模型, 与使用 DDPG 算法的工具 CDBTune , 以及 LlamaTune 中基于 BO 的
算法 SMAC 均部署在容器实例 Tuner1 中, 在模型训练阶段 MySQL 数据库性能 (Throughput、Latency) 变化对比
见图 12.
从图 12 显示的实验结果来看, 在 TPC-C 工作负载下, 对 MySQL 数据库系统, 使用 DDPG 方法对其进行参数
优化后, 其平均性能为 (1 470.4, 1 480.0), 使用 SMAC 方法对其进行参数优化后, 其平均性能为 (1 749.2, 1 053.1).
改进的 MODDPG 方法对其配置参数进行优化后, 其性能的均值达到了 (2 299.0, 1 042.3) (见表 5), 相比于 DDPG
方法, 平均吞吐量提升近似 56%, 平均延迟降低近似 30%; 相比于 SMAC 方法, 平均吞吐量提升近 31%.

