Page 50 - 《软件学报》2021年第8期
P. 50
2332 Journal of Software 软件学报 Vol.32, No.8, August 2021
率.因此其不适合采用 Device 端加速设备执行.
(a) (b)
(c) (d)
Fig.2 One iteration of HPL algorithm
图 2 HPL 算法单次迭代
在 Panel 分解执行完毕之后,所有列的进程开始执行 Update 过程.在该过程中拥有矩阵 U(或其某一部分)
的进程行我们称为 U 行进程.这些进程将 U 中待交换的矩阵行集合后配合其他行进程完成矩阵对应列的分布
式行交换过程,其结果是每一进程都拥有自身矩阵对应所需的 U 矩阵.之后,参与 Update 操作的所有进程分别利
用得到的 L1 矩阵对交换后的 U 矩阵进行 dtrsm(三角矩阵求解)更新,并利用得到的 L2 矩阵和矩阵 U 对所属自