Page 195 - 《软件学报》2025年第9期
P. 195

4106                                                       软件学报  2025  年第  36  卷第  9  期


                 30  个  epoch  的训练时间. 整体来看, 在  2B3B-Cosine、2B3B-Gaussian、MTP、SNAP  这  4  种模型下的  8  个体系的
                 平均加速比分别为: 9.94×, 10.99×, 9.25×, 8.59×.

                                                 Adam RLEKF                                  Adam RLEKF
                    40 000                                       6 000
                                 35 576                                      54 221
                    35 000            32 523           31 086    5 000
                    30 000                        24 456         4 000
                   时间 (s)  25 000  18 862  17 849  21 462      时间 (s)  3 000     25 885   23 317 22 323  25 843
                    20 000
                    15 000
                    10 000   12 831                              2 000  16 066 15 279  15 380
                                                                 1 000
                     5 000         3 639  3 142          3 217                 5 826
                           1 458  1 618     1 731  2 518  2 431        1 152  1 399  25 68  1 258  2 135  2 026  2 715
                        0                                          0
                          Cu  Ag   Al  C   Li  Mg   S   Si            Cu  Ag  Al   C   Li  Mg   S   Si
                              (a) 基于 2B3B-Cosine 方法的训练时间                 (b) 基于 2B3B-Gaussian 方法的训练时间
                                                 Adam RLEKF                                  Adam RLEKF
                    35 000                                      35 000       33 137
                                 31 633                                          31 566           30 882
                    30 000            29 948           30 115   30 000
                                                  26 681                                      26 920
                    25 000  21 476        20 596  21 459        25 000                20 161 20 132
                   时间 (s)  20 000  12 845                      时间 (s)  20 000  19 097  12 859
                                                                15 000
                    15 000
                    10 000                                      10 000
                     5 000         4 024  3 687  2 934   3 448   5 000         4 279  3 816  3 094  2 863  3 638
                           1 587  1 771     1 913    2 563             1 735  1 893     1 913
                        0                                          0
                          Cu  Ag   Al  C   Li  Mg   S   Si            Cu  Ag  Al   C   Li  Mg   S   Si
                                (c) 基于 MTP 方法的训练时间                          (d) 基于 SNAP 方法的训练时间
                              图 6 不同模型下      Adam  优化器和层重组卡尔曼滤波优化器的端到端训练时间


                 4   总 结

                    神经网络力场是科学智能          (AI-for-Science) 领域的重要研究方向, 然而其训练过程的稳定和精度是该方向面
                 临的关键挑战之一. 我们首先概述了现阶段神经网络力场在一阶训练方法中普遍存在的问题和挑战, 分别为: 能量
                 和力场的联合训练任务中损失函数的设定、学习率的选取和衰减策略、训练过程中可能出现的梯度爆炸现象. 并
                 基于一些常见的神经网络力场模型给出              3  个观察并进行论证. 本文的贡献如下: (1) 通过交替训练的方式规避联合
                 训练中损失函数的强经验依赖的参数设置问题, 同时 分析了交替训练的精度收益和额外的时间消耗; (2) 设计了
                 层重组卡尔曼滤波优化器的分块大小阈值, 通过建模得到该阈值, 块大小阈值超参无需人为指定; (3) 给出层重组
                 卡尔曼滤波方法能防止梯度爆炸的理论证明, 同时验证神经网络力场训练过程中权重初始化和激活函数选取的鲁
                 棒性.
                    本文针对    4  种典型的神经网络力场模型, 在         11  个有代表性的体系上测试了一阶优化器和层重组卡尔曼滤波
                 优化器的性能表现       (收敛精度和速度). 实验表明, 在       8  个单精度的体系中, Adam     优化器和层重组卡尔曼优化器关
                 于能量和原子受力收敛到相当的精度时, 层重组的卡尔曼滤波优化器相比于                        Adam  优化器能达到    8–10 倍的加速比.

                 References:
                  [1]   Qian  DP,  Wang  R.  Key  issues  in  exascale  computing.  SCIENTIA  SINICA  Informationis,  2020,  50(9):  1303–1326  (in  Chinese  with
                     English abstract). [doi: 10.1360/SSI-2020-0099]
                  [2]   Doltsinis NL, Marx D. Nonadiabatic car-parrinello molecular dynamics. Physical Review Letters, 2002, 88(16): 166402. [doi: 10.1103/
                     PhysRevLett.88.166402]
                  [3]   Marx D, Hutter J. Ab Initio Molecular Dynamics: Basic Theory and Advanced Methods. Cambridge: Cambridge University Press, 2009.
                  [4]   Parr RG, Yang WT. Density-functional Theory of Atoms and Molecules. Oxford: Oxford University Press, 1995.
                  [5]   Koch W, Holthausen MC. A Chemist’s Guide to Density Functional Theory. 2nd ed., New York: Wiley-VCH, 2001.
   190   191   192   193   194   195   196   197   198   199   200