Page 375 - 《软件学报》2024年第6期
P. 375
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2024,35(6):2951−2973 [doi: 10.13328/j.cnki.jos.006901] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
HTAP 数据库系统数据共享模型和优化策略
胡梓锐 1,2 , 翁思扬 1,2 , 王清帅 1,2 , 俞 融 1,2 , 徐金凯 1,2 , 张 蓉 1,2 , 周 烜 1,2
1
(华东师范大学 上海市大数据管理系统工程研究中心, 上海 200062)
2
(华东师范大学 数据科学与工程学院, 上海 200062)
通信作者: 张蓉, E-mail: rzhang@dase.ecnu.edu.cn
摘 要: 混合事务与分析处理数据库系统 (HTAP) 因其在一套系统上可以同时处理混合负载而逐渐获得大众认可.
为了不影响在线事务处理 (OLTP) 业务的写入性能, HTAP 数据库系统往往会通过维护数据多版本或额外副本的
方式来支持在线分析处理 (OLAP) 任务, 从而引入了 TP/AP 端版本的数据一致性问题. 同时, HTAP 数据库系统面
临资源隔离下实现高效数据共享的核心挑战, 且数据共享模型的设计综合权衡了业务对性能和数据新鲜度之间的
要求. 因此, 为了系统地阐释现有 HTAP 数据库系统数据共享模型及优化策略, 首先根据 TP 生成版本与 AP 查询
版本的差异, 通过一致性模型定义数据共享模型, 将 HTAP 数据共享的一致性模型分为 3 类, 分别为线性一致性,
顺序一致性与会话一致性. 然后, 梳理数据共享模型的全流程, 即从数据版本标识号分配, 数据版本同步, 数据版本
追踪 3 个核心问题出发, 给出不同一致性模型的实现方法. 进一步, 以典型的 HTAP 数据库系统为例对具体实现进
行深入的阐释. 最后, 针对数据共享过程中涉及的版本同步、追踪、回收等模块的优化策略进行归纳和分析, 并展
望数据共享模型的优化方向, 指出数据同步范围自适应, 数据同步周期自调优和顺序一致性的新鲜度阈值约束控
制是提高 HTAP 数据库系统性能和新鲜度的可能手段.
关键词: HTAP 数据库系统; 一致性模型; 数据管理; 混合负载; 性能优化
中图法分类号: TP311
中文引用格式: 胡梓锐, 翁思扬, 王清帅, 俞融, 徐金凯, 张蓉, 周烜. HTAP数据库系统数据共享模型和优化策略. 软件学报, 2024,
35(6): 2951–2973. http://www.jos.org.cn/1000-9825/6901.htm
英文引用格式: Hu ZR, Weng SY, Wang QS, Yu R, Xu JK, Zhang R, Zhou X. Data Sharing Model and Optimization Strategies in
HTAP Database Systems. Ruan Jian Xue Bao/Journal of Software, 2024, 35(6): 2951–2973 (in Chinese). http://www.jos.org.cn/1000-
9825/6901.htm
Data Sharing Model and Optimization Strategies in HTAP Database Systems
1,2
1,2
1,2
1,2
1,2
1,2
HU Zi-Rui , WENG Si-Yang , WANG Qing-Shuai , YU Rong , XU Jin-Kai , ZHANG Rong , ZHOU Xuan 1,2
1
(Shanghai Engineering Research Center of Big Data Management, East China Normal University, Shanghai 200062, China)
2
(School of Data Science and Engineering, East China Normal University, Shanghai 200062, China)
Abstract: Hybrid transactional/analytical processing (HTAP) database systems have gained extensive acknowledgment of users due to their
full processing support of the mixed workloads in one system, i.e., transactions and analytical queries. Most HTAP database systems tend
to maintain multiple data versions or additional replicas to accomplish online analytical processing (OLAP) without downgrading the write
performance of online transactional processing (OLTP). This leads to a consistency problem between the data of TP and AP versions.
Meanwhile, HTAP database systems face the core challenge of achieving efficient data sharing under resource isolation, and the data-
sharing model integrates the trade-off between business requirements for performance and data freshness. To systematically explain the
data-sharing model and optimization strategies of existing HTAP database systems, this study first utilizes the consistency models to define
the data-sharing model and classify the consistency models for HTAP data sharing into three categories, namely, linear consistency,
* 基金项目: 国家自然科学基金 (62072179); 2021 CCF-华为数据库创新研究计划
收稿时间: 2022-09-18; 修改时间: 2022-11-11; 采用时间: 2023-01-05; jos 在线出版时间: 2023-07-05
CNKI 网络首发时间: 2023-07-07