Page 87 - 《软件学报》2021年第8期
P. 87

徐顺  等:面向异构计算的高性能计算算法与软件                                                         2369


                 能计算机普遍采用异构架构的当下,性能调优显得尤其重要.代码的移植优化工作是一项具有挑战性的工作.主
                 要的优化策略有:通过通信优化手段减少通信占比,提高程序的可扩展性;通过计算子区域规模划分,调节计算
                 资源和高速寄存器及缓存使用率,达到较好的均衡;通过改进算法或算法实现,减少数据依赖和分支计算,提高
                 数据访问连续性和 cache 命中率;提高程序的向量化率等.



















                                          Fig.3    Discrete structure in Stencil computation
                                                图 3   Stencil 计算的离散结构
                 1.3    相场模拟微结构演化
                    合金材料的微观组织对材料的诸多性能起到决定性的影响,因此深入研究其微观组织的演化机理具有重
                 要的意义.相场方法是模拟合金材料微观组织演化的主要手段,主要通过求解关于相场、成分场等变量的一组
                 偏微分方程来进行微组织演化过程的模拟.方程具有强刚性和强非线性的特点,大体系长时间的模拟是非常具
                 有挑战性的课题.传统的有限差分显式算法虽可在当代高性能计算平台上有较高效的实现                                [23] ,但由于时间步长
                 受到算法稳定性条件的限制而无法满足长时间模拟的需求.而隐格式的设计则面临着相场模型方程强非线性
                 以及相应的大规模线性和非线性代数方程组并行求解等问题.中国科学院计算机网络信息中心和金属研究所
                 团队合作,针对国产异构高性能计算平台设计了可扩展指数时间差分算法,可高效地进行相场模型的大体系长
                 时间模拟.2016 年在“神威·太湖之光”超级计算机上使用全机约 1 000 万计算核心实现了持续性能为 50 PFLOPS
                 (每秒 5 亿亿次浮点运算)的超大规模相场模拟             [24] .基于“神威”超级计算机的“申威”处理器的主从核架构,数据通
                 信使用主核 DMA 方式,而七点 Stencil 计算则在从核上计算.最终应用测试(如图 4 所示)的并行效率达到 70%,
                 浮点性能达到峰值的 41%,远超同类的计算软件.


















                     Fig.4    Configuration coarsening evolution of two-phase system governed by the Cahn-Hilliard equation
                                 图 4   两相体系由 Cahn-Hilliard 方程控制在粗化过程中的构型演化
   82   83   84   85   86   87   88   89   90   91   92