Page 273 - 《软件学报》2025年第8期
P. 273
3696 软件学报 2025 年第 36 卷第 8 期
2 天河新一代超算架构
随着目前进入百亿亿次计算时代, 超级计算机的架构呈现出多元化的发展趋势. 在后摩尔时代, 通用 CPU 的
计算能力已经达到了瓶颈, 大多数高性能计算机采用了加速器作为新的计算资源. 当前市面上的加速器种类较多,
例如英伟达公司的通用 GPU (general-purpose graphic processing unit, GPGPU) [16−19] 、英特尔公司的集成众核
(many integrated core, MIC) [20,21] 和通用数字信号处理 (general purpose digital signal processing, DPDSP) [22,23] 等, 都被
广泛地使用以实现高性能计算技术. 由于引入了加速器, 整个高性能计算系统采用的是异构模式, 同时也使得高性
能计算系统的体系结构多样化和复杂化, 对实现高性能应用程序以充分挖掘异构系统的算力带来了挑战.
天河新一代超算同样采用异构的体系结构, 这种架构的优势在于能够充分发挥加速器的计算性能, 从而提高
应用程序的执行效率. 相较于通用 CPU, 加速器拥有更多的计算单元和更高的内存带宽, 具备更强的计算能力. 通
过将主机端的数据传输到加速器上执行计算, 可以快速处理大规模并行任务, 减轻主机端的负载压力. 同时, 加速
器计算单元之间采用类似于 SPMD (single program multiple data) 的并行模式, 进一步提升了并行计算效率. 这种
异构架构使得国产天河新一代超算能够更好地满足大规模并行计算需求, 提供高性能的计算能力.
天河新一代超算采用的异构系统由多核处理器和 DSP 加速器组成, 不同的计算节点之间采用高速网络进行
互联. 超算每个计算节点采用的是 MT-3000 的处理器, 该处理器采用分层结构和多并行的特性, 并具有异构内存
一致性模型. 图 1 展示的是天河新一代超算一个节点的示意图, 从图中可以看到, 超算的节点划分了两个不同的
域: 通用域和加速域. 通用域包含了 16 个通用 CPU, 并且实现了缓存的一致性机制. 而加速域包含了 96 个控制核和
1 536 个加速核, 并且从图中可以看到, 加速域的核心被划分成了 4 个互相独立的簇, 每个簇拥有自己的全局共享
内存 (global shared memory, GSM)、高速带宽共享内存 (high bandwidth shared memory, HBSM) 以及片外 DDR 内
存映射区域. 通用域的核心可以访问片外 DDR 内存的所有区域和所有簇的高速带宽共享内存, 而加速域的核只能
访问各自的片上内存以及相对应的片外 DDR 内存区域. 此外, 每个加速簇中的 24 个控制核可以独立执行指令和
访问内存, 因此每个簇可以独立运行程序.
32 GB DDR4
CPU CPU 加速域
CPU CPU 簇 1
32 GB DDR4 簇 2
CPU CPU
CPU CPU 簇 3
通用域
簇 4
32 GB DDR4 控制核 加
CPU CPU
CPU CPU … 速
CPU CPU 核
GSM
32 GB DDR4
CPU CPU HBSM
主机端 设备端
片外 DDR 内存
图 1 天河新一代计算节点架构图 [24]
3 面向天河新一代超算的平行交通仿真
面向天河新一代超算的平行交通仿真框架如图 2 所示, 该框架主要包括以下几个模块: (1) 将物理空间映射到

