Page 336 - 《软件学报》2021年第9期
P. 336
2960 Journal of Software 软件学报 Vol.32, No.9, September 2021
性,系统规模可达到几万个处理器并行执行,同时可模拟的原子个数可达到 5 千万以上.这对大规模的分子动力
学模拟提供了有价值的参考.
Table 4 Performance comparisons of hardware and software solutions for MD
表 4 分子动力学模拟软硬件解决方案的性能对比
处理器 原子数 节点数 速度(steps/s)
Anton II 2014 [21] 2.2M 512 16.7K
Anton I 2007 [22] 23.6M 512 67.3K
CPU+GPU 2015 [23] 140K 128 1.12K
Cray XK7 2014 [24] 224M 16 384 0.13K
Sunway 0.26M 512 17.8K
Sunway 0.9M 1 728 15.8K
Sunway 2.1M 4 096 11.8K
Sunway 4.1M 8 000 10.9K
Sunway 14.2M 13 824 8.2K
Sunway 22.4M 21 952 7.7K
Sunway 50.4M 32 768 5.1K
4 相关工作
计算密集型和访存密集型程序在神威“太湖之光”上得以优化.Stencil 问题具有较高的计算吞吐,在神威上
[9]
实现计算-通信重叠,优化通信开销 [25] .优化神威上 HPCG 算法中的有效内存带宽以及增强算法的可扩展性 .
GTC-P 大规模并行模拟的高性能计算程序针对神威的访存带宽进行优化 [26] .
神威“太湖之光”超级计算机强大的运算能力,使其能够处理多种大规模的应用.在神威高性能集群上实现
了超大规模的气象模拟 [27] .大规模非线性地震模拟 [28] 针对神威体系结构特点给出并行化解决方案.此类应用的
特点是数据规模庞大,针对内存空间和带宽给出了优化方案.
时间演化类应用旨在解决的问题是提高迭代频率,加速时间演化过程.Anton [21,22] 机器是针对分子动力学
模拟设计的一款专用目的计算机,硬件上设计的低延迟、高带宽特点的网络以用于快速同步,但是限制了系统
的物理规模.在神威上,从数据的预取和向量化角度优化 [29] LAMMPS 中对内存数据的访问.针对计算密集型的
GROMACS 程序,在神威“太湖之光”上解决内存带宽限制的问题 [30] .
由于时间演化类应用本身数据依赖性的特点,不同处理器间的频繁通信将极大地制约迭代频率的提高.本
文以减少延迟敏感的时间演化类程序的通信延迟为主要目标,优化通信,并提出几种有效的并行化策略,为类似
的通信受限类程序在异构的国产化神威机器上的应用提供了蓝本.
5 总 结
在本文中,我们实现了分子动力学模拟程序在神威太湖之光超级计算机上的优化.我们的实现是基于以核
组为单位的编程模式,在系统规模和网络通信能力不变的前提下,利用片上同步,减少了消息个数,优化了通信
延迟.通过共享内存等待与从核同步相结合的方式,进一步优化了片上同步带来的访存延迟.同时,我们针对分
子间多体作用力的计算模式进行修改,将互相写同步的紧耦合计算模式改为松耦合.减少了迭代步中间的同步
次数,打破了不同线程间的依赖关系,提高了吞吐.此外,进行了访存优化以及规则化数据结构以提高访存凝聚
性.我们的工作是针对诸如分子动力学模拟等延迟敏感的时间演化类应用如何提高迭代频率,给出的一系列优
化技术,为类似的通信受限类程序在主从核异构的国产神威处理器上的优化提供了参考.今后的工作中,我们将
进一步探索神威上的优化技术,对时间演化类程序进行高效模拟.
References:
[1] Donev A, Garcia AL, Alder BJ. Stochastic event-driven molecular dynamics. Journal of Computational Physics, 2008,227(4):
2644−2665.
[2] Evans DJ, Hoover WG, Failor BH, Moran B, Ladd AJC. Nonequilibrium molecular dynamics via Gauss's principle of least
constraint. Physical Review A, 1983,28(2):1016−1021.