Page 375 - 《软件学报》2024年第6期
P. 375

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 Journal of Software,2024,35(6):2951−2973 [doi: 10.13328/j.cnki.jos.006901]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                      *
                 HTAP     数据库系统数据共享模型和优化策略

                 胡梓锐  1,2 ,    翁思扬  1,2 ,    王清帅  1,2 ,    俞    融  1,2 ,    徐金凯  1,2 ,    张    蓉  1,2 ,    周    烜  1,2


                 1
                  (华东师范大学 上海市大数据管理系统工程研究中心, 上海 200062)
                 2
                  (华东师范大学 数据科学与工程学院, 上海 200062)
                 通信作者: 张蓉, E-mail: rzhang@dase.ecnu.edu.cn

                 摘 要: 混合事务与分析处理数据库系统             (HTAP) 因其在一套系统上可以同时处理混合负载而逐渐获得大众认可.
                 为了不影响在线事务处理         (OLTP) 业务的写入性能, HTAP      数据库系统往往会通过维护数据多版本或额外副本的
                 方式来支持在线分析处理         (OLAP) 任务, 从而引入了     TP/AP  端版本的数据一致性问题. 同时, HTAP        数据库系统面
                 临资源隔离下实现高效数据共享的核心挑战, 且数据共享模型的设计综合权衡了业务对性能和数据新鲜度之间的
                 要求. 因此, 为了系统地阐释现有         HTAP  数据库系统数据共享模型及优化策略, 首先根据               TP  生成版本与   AP  查询
                 版本的差异, 通过一致性模型定义数据共享模型, 将                HTAP  数据共享的一致性模型分为         3  类, 分别为线性一致性,
                 顺序一致性与会话一致性. 然后, 梳理数据共享模型的全流程, 即从数据版本标识号分配, 数据版本同步, 数据版本
                 追踪  3  个核心问题出发, 给出不同一致性模型的实现方法. 进一步, 以典型的                  HTAP  数据库系统为例对具体实现进
                 行深入的阐释. 最后, 针对数据共享过程中涉及的版本同步、追踪、回收等模块的优化策略进行归纳和分析, 并展
                 望数据共享模型的优化方向, 指出数据同步范围自适应, 数据同步周期自调优和顺序一致性的新鲜度阈值约束控
                 制是提高   HTAP  数据库系统性能和新鲜度的可能手段.
                 关键词: HTAP  数据库系统; 一致性模型; 数据管理; 混合负载; 性能优化
                 中图法分类号: TP311

                 中文引用格式: 胡梓锐, 翁思扬, 王清帅, 俞融, 徐金凯, 张蓉, 周烜. HTAP数据库系统数据共享模型和优化策略. 软件学报, 2024,
                 35(6): 2951–2973. http://www.jos.org.cn/1000-9825/6901.htm
                 英文引用格式: Hu ZR, Weng SY, Wang QS, Yu R, Xu JK, Zhang R, Zhou X. Data Sharing Model and Optimization Strategies in
                 HTAP Database Systems. Ruan Jian Xue Bao/Journal of Software, 2024, 35(6): 2951–2973 (in Chinese). http://www.jos.org.cn/1000-
                 9825/6901.htm
                 Data Sharing Model and Optimization Strategies in HTAP Database Systems
                                                                           1,2
                                                                                        1,2
                         1,2
                                                                 1,2
                                                       1,2
                                       1,2
                 HU Zi-Rui , WENG Si-Yang , WANG Qing-Shuai , YU Rong , XU Jin-Kai , ZHANG Rong , ZHOU Xuan 1,2
                 1
                 (Shanghai Engineering Research Center of Big Data Management, East China Normal University, Shanghai 200062, China)
                 2
                 (School of Data Science and Engineering, East China Normal University, Shanghai 200062, China)
                 Abstract:  Hybrid transactional/analytical processing (HTAP) database systems have gained extensive acknowledgment of users due to their
                 full  processing  support  of  the  mixed  workloads  in  one  system,  i.e.,  transactions  and  analytical  queries.  Most  HTAP  database  systems  tend
                 to  maintain  multiple  data  versions  or  additional  replicas  to  accomplish  online  analytical  processing  (OLAP)  without  downgrading  the  write
                 performance  of  online  transactional  processing  (OLTP).  This  leads  to  a  consistency  problem  between  the  data  of  TP  and  AP  versions.
                 Meanwhile,  HTAP  database  systems  face  the  core  challenge  of  achieving  efficient  data  sharing  under  resource  isolation,  and  the  data-
                 sharing  model  integrates  the  trade-off  between  business  requirements  for  performance  and  data  freshness.  To  systematically  explain  the
                 data-sharing model and optimization strategies of existing HTAP database systems, this study first utilizes the consistency models to define
                 the  data-sharing  model  and  classify  the  consistency  models  for  HTAP  data  sharing  into  three  categories,  namely,  linear  consistency,


                 *    基金项目: 国家自然科学基金  (62072179); 2021 CCF-华为数据库创新研究计划
                  收稿时间: 2022-09-18; 修改时间: 2022-11-11; 采用时间: 2023-01-05; jos 在线出版时间: 2023-07-05
                  CNKI 网络首发时间: 2023-07-07
   370   371   372   373   374   375   376   377   378   379   380