Page 56 - 《软件学报》2021年第8期
P. 56

2338                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021






















                              Fig.9    Efficiency trend of single process Hetero-HPL with respect to matrix rank
                                     图 9   单进程 Hetero-HPL 执行效率随着矩阵阶数变化趋势

                 5.3   多节点实验结果
                    图 10 展示了 Hetero-HPL 在 4~256 个节点的运行性能.实验中每个进程的 Device 端内存使用量达到
                 96.0%.我们的工作展示了基于单进程控制多协处理器技术的 HPL 算法在分布式环境下的测试结果.但意
                 外的是,Hetero-HPL 虽然在算法层面并没有引入多余的数据传输量,但是程序的性能随着进程数的增加而
                 大幅度降低.由于 HPL 算法本身具有很好的可扩展性,而在实际测量中我们发现通信所耗费的时间约为总
                 体计算时间的 25%~30%,因此我们认为通信效率成为制约 Hetero-HPL 在分布式环境下扩展性的一个重要
                 方面.






















                                         Fig.10   Scalability of Hetero-HPL on 4~256 nodes
                                          图 10  Hetero-HPL 在 4~256 个节点可扩展性

                    Hetero-HPL 通信开销表现在 3 个方面.第一,PCI-e 总线利用率不高.以 Panel 分解相关的节点内传输为例,
                 由于目前采用 NB 为列数按列方向划分矩阵,使得任意一个 Panel 从 Device 端拷贝到 Host 端仅能采用一路 PCI-e
                 总线.若使用 NB/D(D 为设备数量)为列数进行矩阵划分并在设备间卷帘排布,则可以确保任意一个 Panel 的数据
                 均匀分布于所有设备,上述传输可以使用所有 PCI-e 总线并行完成.另外第 4.2 节所述的操作归并技术亦可在更
                 细粒度的数据划分方案上使用,可确保设备端的计算性能.第二,Panel 分解阶段并未实现计算通信重叠.我们认
   51   52   53   54   55   56   57   58   59   60   61