Page 148 - 《软件学报》2025年第12期
P. 148

荣垂田 等: 多目标深度强化学习驱动的数据库系统参数优化技术                                                  5529


                 数据库的性能的峰值达到         (吞吐量: 2 528.2 T/s, 延迟: 215.9 ms), 相比于使用默认配置参数的      MySQL  数据库的性
                 能  (吞吐量: 228.8 T/s, 延迟: 1 517.7 ms), 其吞吐量提升了  10  倍左右, 延迟大约降低至   1/7 (见表  5).

                            表 5 各种工作负载下不同方法的性能            (吞吐量   (T/s), 延迟  (ms)) 的平均值和峰值对比

                                                        DDPG                        ON-MODDPG
                   工作负载       MySQL default
                                                平均值             峰值             平均值             峰值
                    TPC-C     (228.8, 1 517.7)  (1 470.4, 1 480.0)  (3 099.6, 190.0)  (2 299.0, 1 042.3)  (3 639.0, 111.9)
                     RW       (125.7, 1 479.4)  (1 611.8, 2 490.7)  (6 393.5, 37.4)  (2 829.3, 1 069.8)  (10 754.6, 23.3)
                     RO        (591.5, 223.3)  (12 268.8, 48.8)  (27 195.3, 9.0)  (12 219.8, 82.7)  (27 596.4, 8.7)
                     WO       (145.8, 1 352.0)  (3 319.6, 408.2)  (24 626.1, 10.9)  (4 133.3, 370.9)  (22 634.2, 10.0)

                    使用   ON-MODDPG  方法推荐的优化参数的          MySQL  数据库性能的峰值达到了         (吞吐量: 3 639.0 T/s, 延迟:
                 111.9 ms), 相比于使用  N-MODDPG  方法推荐的优化参数的        MySQL  数据库, 其吞吐量提升了       44%  左右, 延迟大约
                 降低了   48%.
                    使用  N-MODDPG   和  ON-MODDPG  方法推荐的参数使得       MySQL  数据库性能比使用默认参数的           MySQL  的
                 性能得到了明显的提升, 主要是因为基于强化学习的数据库参数优化方法可以自动从数据库环境中提取当前的环
                 境状态, 以试错的方式根据当前状态做出动作               (推荐参数) 进而得到对当前动作的奖励, 当数据库重启以使配置参
                 数生效   (即当前数据库状态发生改变), 则重复上述过程以使累积的奖励最大化, 从而推荐可以使数据库达到更高
                 性能的配置参数.

                  6.3   ON-MODDPG  在数据库参数优化方面的优势
                    为了验证多目标强化学习在数据库参数优化这一多目标优化任务方面的优势, 在容器实例                               Tuner1  上对模型
                 DDPG  和  MODDPG  进行了对比实验. 通过表      6  的实验结果可以看出, 在样本数为         200  的情况下  ON-MODDPG  模
                 型推荐的参数可以使        MySQL  数据库的性能比使用        DDPG  模型推荐的参数的       MySQL  数据库的吞吐量提升了
                 22%、延迟降低了约      40%; 在样本数为    400  的情况下, 数据库的吞吐量提升了         14%、延迟降低了约       34%. 因此, 多
                 目标强化学习在同样的训练样本量的情况下具有明显的优势, 这得益于                        ON-MODDPG  使用了多目标强化学习针
                 对多个优化目标的决策问题的公式化解决方案                 (多目标的   Bellman  方程), 其在  Critic 网络更新过程中能够在整个
                 CCS  中快速找到当前偏好下的最优解, 使该最优策略与当前偏好对齐. 如表                     6  的实验结果所示, ON-MODDPG     方
                 法可以在同样有限的训练样本下探索到更优的配置参数使数据库系统达到更优的性能.

                                               表 6 探索更优配置参数效率对比

                                              DDPG最优性能                   ON-MODDPG最优性能
                             样本数
                                         吞吐量 (T/s)      延迟 (ms)      吞吐量 (T/s)       延迟 (ms)
                              200         2 848.20       236.14        3 486.10       143.43
                              400         3 071.99       192.68        3 516.20       127.26

                  6.4   不同负载下与已有参数调优方法的对比
                    (1) 基于  TPC-C  的性能对比
                                                                               +
                    将本文使用     ON-MODDPG  算法的模型, 与使用      DDPG  算法的工具    CDBTune , 以及  LlamaTune 中基于  BO  的
                 算法  SMAC  均部署在容器实例      Tuner1  中, 在模型训练阶段    MySQL  数据库性能    (Throughput、Latency) 变化对比
                 见图  12.
                    从图  12  显示的实验结果来看, 在      TPC-C  工作负载下, 对   MySQL  数据库系统, 使用    DDPG  方法对其进行参数
                 优化后, 其平均性能为       (1 470.4, 1 480.0), 使用  SMAC  方法对其进行参数优化后, 其平均性能为       (1 749.2, 1 053.1).
                 改进的   MODDPG  方法对其配置参数进行优化后, 其性能的均值达到了                  (2 299.0, 1 042.3) (见表  5), 相比于  DDPG
                 方法, 平均吞吐量提升近似        56%, 平均延迟降低近似      30%; 相比于  SMAC  方法, 平均吞吐量提升近       31%.
   143   144   145   146   147   148   149   150   151   152   153