2326 Journal of Software 软件学报 Vol.32, No.8, August 2021
程细粒度版本 HPL 最终在 512 个节点上实现了 HPL 实测峰值性能 2.3 PFLOPS,实测效率 71.1%优秀测试结果.
Fig.6 HPL performance on single NVIDIA GPU
图 6 NVIDIA GPU 单卡 HPL 性能
Fig.7 HPL performance on multiple NVIDIA GPUs
图 7 NVIDIA GPU 多卡 HPL 性能