Page 346 - 《软件学报》2025年第8期
P. 346

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(8):3769−3786 [doi: 10.13328/j.cnki.jos.007220] [CSTR: 32375.14.jos.007220]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                               *
                 DRAMA: 更新分布感知的学习型索引

                 郭    娜  1,2 ,    王雅琪  2 ,    姜皓南  2 ,    谷    峪  1 ,    夏秀峰  2


                 1
                  (东北大学 计算机科学与工程学院, 辽宁 沈阳 110167)
                 2
                  (沈阳航空航天大学 计算机学院, 辽宁 沈阳 110136)
                 通信作者: 谷峪, E-mail: guyu@mail.neu.edu.cn

                 摘 要: 学习型索引因其低内存占用和高查询性能的特点, 正辅助或逐步取代传统的索引结构. 然而, 数据更新导
                 致的在线重新训练使其无法适应数据频繁更新的场景. 为了在不过多消耗内存的前提下尽量避免由于数据频繁更
                 新导致的索引重构, 提出了一种自适应的感知更新分布学习型索引结构                       DRAMA. 使用类    LSM-Tree 的延迟学习方
                 式主动学习数据更新的分布特征; 利用近似拟合技术快速建立更新分布模型; 采用模型合并策略代替频繁的重训
                 练过程; 采用一种混合压缩技术降低索引中模型参数的内存占用率. 在真实和合成的数据集上构建了索引并进行
                 验证. 结果表明, 相比于传统索引和最先进的学习型索引, 该索引可以在不额外消耗过多内存的情况下, 有效降低
                 数据更新环境下的查询延迟.
                 关键词: 学习型索引; 更新分布; 压缩策略; 延迟学习; 近似拟合; 模型合并
                 中图法分类号: TP311

                 中文引用格式: 郭娜, 王雅琪, 姜皓南, 谷峪, 夏秀峰. DRAMA: 更新分布感知的学习型索引. 软件学报, 2025, 36(8): 3769–3786.
                 http://www.jos.org.cn/1000-9825/7220.htm
                 英文引用格式: Guo  N,  Wang  YQ,  Jiang  HN,  Gu  Y,  Xia  XF.  DRAMA:  Update-distribution-aware  Learned  Index.  Ruan  Jian  Xue
                 Bao/Journal of Software, 2025, 36(8): 3769–3786 (in Chinese). http://www.jos.org.cn/1000-9825/7220.htm

                 DRAMA: Update-distribution-aware Learned Index
                                                  2
                                    2
                       1,2
                                                        1
                 GUO Na , WANG Ya-Qi , JIANG Hao-Nan , GU Yu , XIA Xiu-Feng 2
                 1
                 (School of Computer Science and Engineering, Northeastern University, Shenyang 110167, China)
                 2
                 (School of Computer Science, Shenyang Aerospace University, Shenyang 110136, China)
                 Abstract:  Learned  indexes  are  assisting  or  gradually  replacing  traditional  index  structures  due  to  their  low  memory  usage  and  high  query
                 performance.  However,  the  online  retraining  caused  by  data  updates  makes  it  unable  to  adapt  to  the  scenario  of  frequent  data  updates.  To
                 avoid  index  reconstruction  due  to  frequent  data  updates  without  significantly  increasing  memory  consumption,  this  study  proposes  an
                 adaptive  update-distribution-aware  learned  index  named  DRAMA.  It  uses  an  LSM-Tree-like  delayed  learning  method  to  actively  learn  the
                 characteristics  of  the  data  update  distribution,  approximate  fitting  techniques  to  quickly  establish  the  update-distribution  model,  a  model
                 merging  strategy  to  replace  the  frequent  retraining,  and  a  hybrid  compression  technique  to  reduce  the  memory  usage  of  model  parameters
                 in  the  index.  The  index  is  constructed  and  validated  on  both  real  and  synthetic  datasets.  The  results  show  that,  compared  to  traditional
                 indexes  and  state-of-the-art  learned  indexes,  the  proposed  index  can  effectively  reduce  query  delay  in  a  data  update  environment  without
                 additional memory consumption.
                 Key words:  learned index; update-distribution; compression strategy; delayed learning; approximate fitting; model merging

                    大数据时代的今天, 数据呈爆炸性增长的趋势, 高效处理频繁更新的数据迫切又棘手. 特别是在目标跟踪服务、
                 移动导航、公共交通系统等对实时性要求较高的应用中显得尤为重要. 在高峰期的地铁进出站, 大量地铁卡数据
                 (如卡片编号、行程的起始站与终点站、卡内金额核验计算与更新等) 需要被实时更新到数据库, 而且这些数据的


                 *    基金项目: 国家自然科学基金  (U23B2019); 中央高校基本科研业务费专项资金    (N2216017)
                  收稿时间: 2023-09-03; 修改时间: 2023-12-05, 2024-02-11; 采用时间: 2024-05-11; jos 在线出版时间: 2024-07-03
                  CNKI 网络首发时间: 2024-07-11
   341   342   343   344   345   346   347   348   349   350   351