Page 222 - 《软件学报》2020年第11期
P. 222

杨佐希  等:基于时序分区的时态索引与查询                                                           3537


                 模式的有效性.


















                    Fig.16    Comparison of the time overhead   Fig.17    Comparison of the time overhead of 3 “disk-based”
                          of 3 “disk-based” models                models under different query intervals
                  图 16   3 种基于“外存”模型的时间开销比较               图 17   不同查询跨度下 3 种“外存”模型的时间开销比较

                 6    总   结

                    随着大数据时代的到来,时态数据管理技术受到越来越多的关注和重视,时态索引技术是高效存储和管理
                 时态数据的一项关键技术.相对于传统的时态索引技术,针对海量数据、并行化优化的时态索引的研究工作较
                 少.如何实现海量数据下对“数据本体”和“时态信息”的有机整合和高效管理,是一项具有挑战性的研究课题.首
                 先,结合时态数据的“有效时间”,本文提出了一种基于时序分区,适用于海量数据的时态索引技术 TPindex.
                 TPindex 特有的上层结构(分区层)可以很好地结合并行化技术,过滤掉大量的“无关”数据,在多个“块”中快速地
                 找到目标数据所在时序分区.其次,在对应分区内部,具有顺序结构的索引层可以通过优化的查询算法高效地筛
                 选数据.同时,本文还提出了一种基于外存的分文件模式,将时序分区内部的线序索引磁盘化.这种模式同样可以
                 通过分区层快速的定位并将目标数据读入内存中,再由查询算法在内部具有顺序结构的索引层中进行高效的
                 数据筛选,在海量数据的情形下,可以增加查询数据的命中率,减少 I/O.再次,本文从 TPindex 的索引结构出发,讨
                 论了基于 PLOB 的增量式时态数据更新机制,提出了可以实现大规模历史数据动态管理的方法.最后,通过实验
                 仿真说明了 TPindex 的性能更优越于 TDindex,表明其具有一定的有效性和可行性.由于目前的研究还局限于本
                 地计算机系统上,在未来的工作中,将再继续拓展到分布式应用等领域中.


                 References:
                 [1]    Ye  XP. Model  and algebra of object-relation bitemporal data based on temporal variables. Journal of Computer  Research  and
                     Development, 2007,44(11):1971–1979 (in Chinese with English abstract).
                 [2]    Kanhabua N, Anand A. Temporal information retrieval. In: Proc. of the Int’l ACM SIGIR Conf. on Research and Development in
                     Information Retrieval. ACM, 2016. 1235–1238. [doi: 10.1145/2911451.2914805]
                 [3]    Ye  XP,  Tang Y, Chen  KY.  Temporal data indexing technology based on valid time. Journal of  Computer  Research and
                     Development, 2006,43(Suppl.):517–520 (in Chinese with English abstract).
                                                                +
                 [4]    Nascimento MA, Dunham MH. Indexing valid time databases via B -trees. IEEE Trans. on Knowledge and Data Engineering, 1999,
                     11(6):929–947. [doi: 10.1109/69.824609]
                 [5]    Bliujute R, Jensen CS, Sltenis S, Slivinskas G. Light-weight indexing of general bitemporal data. In: Proc. of the Int’l Conf. on
                     Scientific and Statistical Database Management. 2000. 125–138. [doi: 10.1109/SSDM.2000.869783]
                 [6]    Bliujute R, Jensen CS, Saltenis S, Slivinskas G. R-tree based indexing of now-relative bitemporal data. In: Proc. of the Int’l Conf.
                     on Very Large Data Bases. 1998. 345−356.
   217   218   219   220   221   222   223   224   225   226   227