Page 47 - 《软件学报》2021年第8期
P. 47
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2021,32(8):2329−2340 [doi: 10.13328/j.cnki.jos.006005] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
∗
面向异构计算机平台的 HPL 方案
1,3
1,2
1
1
孙 乔 , 孙家昶 , 马文静 , 赵玉文
1
(中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190)
2
(计算机科学国家重点实验室(中国科学院 软件研究所),北京 100190)
3 (中国科学院大学,北京 100049)
通讯作者: 赵玉文, E-mail: zhaoyuwen@iscas.ac.cn
摘 要: HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业
界十分关注对 HPL 测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异
构计算平台,尝试为 HPL 的优化工作提供一种解决方案:Hetero-HPL.在 Hetero-HPL 中,进程与协处理器的对应关系
可被改变,因此 HPL 算法在单节点独立运行情况下可以完全避免进程间数据传输开销.算法各个重要步骤有能力完
全利用物理节点的所有资源,如内存容量、CPU 核心、协处理器、PCI-e 总线等.Hetero-HPL 并不引入冗余计算量
及通信量,并在任意设备数量下妥善应对锁页内存分配限制,确保多设备负载均衡和设备内高效的大规模同质运算.
在实验平台上,Hetero-HPL 效率可以达到平台峰值性能的 76.5%(其中,dgemm 函数效率为 84%).进一步的实验结果
表明,Hetero-HPL 在多节点联机运行情况下也是一种可行的方案.
关键词: HPL(high performance Linpack);多设备异构平台;并行计算
中图法分类号: TP303
中文引用格式: 孙乔,孙家昶,马文静,赵玉文.面向异构计算机平台的 HPL 方案.软件学报,2021,32(8):2329–2340. http://www.
jos.org.cn/1000-9825/6005.htm
英文引用格式: Sun Q, Sun JC, Ma WJ, Zhao YW. HPL approach for heterogeneous computer platforms. Ruan Jian Xue Bao/
Journal of Software, 2021,32(8):2329−2340 (in Chinese). http://www.jos.org.cn/1000-9825/6005.htm
HPL Approach for Heterogeneous Computer Platforms
1
1,3
1,2
1
SUN Qiao , SUN Jia-Chang , MA Wen-Jing , ZHAO Yu-Wen
1
(Laboratory of Parallel Software and Computational Science, Institute of Software, Chinese Academy of Sciences, Beijing 100190,
China)
2
(State Key Laboratory of Computer Science (Institute of Software, Chinese Academy of Sciences), Beijing 100190, China)
3
(University of Chinese Academy of Sciences, Beijing 100049, China)
Abstract: HPL (high performance Linpack) is a widely used benchmark for measuring computer performance. Over the decades, the
practice of optimizing and tuning of HPL has constantly drawn great attention in both industrial and academic circle, to evaluate the
performance of contemporary cutting-edge computer platforms. For current heterogeneous HPC platforms with multiple accelerating
co-processors, an approach of high-performance HPL benchmark, Hetero-HPL, is proposed in this paper. In Hetero-HPL, the mapping
between process set and (co-) processor set becomes adjustable, so that the computation within each computing node may avoid
inter-process message exchange, and each important procedure of the HPL algorithm may make full use of the hardware resources of the
computing node, such as memory, CPU cores, co-processors, and PCI-e bus etc.Without redundant computation and communication, the
∗ 基金项目: 国家重点研发计划(2018YFB0204404); 中国科学院战略性先导科技专项(C 类)(XDC01030200)
Foundation item: National Key Research and Development Program of China (2018YFB0204404); Strategic Priority Research
Program of the Chinese Academy of Sciences (Category C) (XDC01030200)
本文由“国产复杂异构高性能数值软件的研制与测试”专题特约编辑孙家昶研究员、李会元研究员推荐.
收稿时间: 2019-08-22; 修改时间: 2019-12-05; 定稿时间: 2020-01-22