Page 462 - 《软件学报》2025年第12期

P. 462

韩瑞琛等: NUMA-conscious 外键连接优化技术 5843

迟远低于片间 NUMA 访问延迟, 因此合并片上的 NUMA 节点可以减少 NUMA 分区及复制的数量, 提高内存存
储效率和连接性能.

NPO --basic-numa PSNNPO RRNPO

1 500
Time (ms) 1 000
500

16 18 20 22 24 26 28
log(|R|)
(a) ARM(64)

1 500
Time (ms) 1 000
500

16 18 20 22 24 26 28
log(|R|)
(b) CLX(28)

1 500
Time (ms) 1 000
500
16 18 20 22 24 26 28
log(|R|)
(c) ICX(38)

1 500
Time (ms) 1 000
500

16 18 20 22 24 26 28
log(|R|)
(d) Milan Zen3(64)

1 500
Time (ms) 1 000
500

16 18 20 22 24 26 28
log(|R|)
(e) Rome Zen2(64)
图 10 NUMA SN 集群 NPO 连接算法性能比较

图 12 对比了 3 种 NPO 算法: 一是在不合并 NUMA 分区细粒度哈希表复制连接算法 (FRHNPO), 二是合并
NUMA 分区细粒度哈希表复制连接算法 (FRHNPONM), 三是 baseline 算法的性能 (NPO --basic-numa).
在 ARM(64) 平台上, FRHNPO 算法和 FRHNPONM 算法的性能均低于 NPO --basic-numa 基准算法性能, 主
要原因在于较大的 cache 容量减少了内存访问数量, 较高的跨 NUMA 访问延迟增加了跨 NUMA 哈希表访问代价.
但在 R 表较大的连接负载中 FRHNPONM 算法性能优于 FRHNPO, 主要原因是合并的 NUMA 节点减少了
NUMA 创建哈希表的数量, 降低了跨 NUMA 创建哈希表的代价.

457 458 459 460 461 462 463 464 465 466 467