Page 183 - 《软件学报》2025年第9期
P. 183

4094                                                       软件学报  2025  年第  36  卷第  9  期


                 proven,  and  the  optimizer’s  robustness  with  respect  to  activation  functions  and  weight  initialization  is  validated.  Four  typical  neural
                 network  force  field  models  are  tested  on  11  representative  datasets.  Results  show  that  when  the  proposed  optimizer  and  the  first-order
                 optimizer  achieve  comparable  prediction  accuracy,  the  proposed  optimizer  is  8  to  10  times  faster  than  the  first-order  optimizer.  It  is
                 believed that the proposed training method can inspire other AI-for-Science applications.
                 Key words:  AI-for-Science;  neural  network;  force  field  training;  reorganized  layer-wised  extended  Kalman  filtering  optimizer;  molecular
                         dynamics simulation

                    理论与分析、实验与观察、计算与模拟是现代科学研究的                     3  种手段  [1] . 其中微观尺度最常用的手段为分子动
                 力学, 而模拟的精度取决于力场          (force field) 的精度. 力场的发展主要可以分为       3  类: 第一性原理分子动力学       [2,3]
                 (Ab initio MD, AIMD)、经典力场和神经网络力场.
                    AIMD  从量子力学基本方程出发, 其核心是通过求解薛定谔方程来描述电子、原子核, 以及电子和原子核间
                 的相互作用. 在实际应用中, 通常会对薛定谔方程进行必要的简化和近似, 例如考虑多重电子激发态的                                 CISDTQ
                                                                                                   (
                 法  (全称为  configuration interaction with single, double, triple and quadruple excitations, 计算复杂度为  O N 10 ) )、
                                                                                        (
                                                                                          )
                 CISD  法  (全称为  configuration Interaction with single and double excitations, 计算复杂度为  O N )、在量子化学中
                                                                                          6
                                                                       (
                                                                               )
                 常用的单电子近似法        HF  方法  (全称为  Hartree-Fork, 计算复杂度为  O N 3  )  –  O N )、基于密度泛函理论  [4,5] 的  KS
                                                                             (
                                                                               4
                                                   )
                 法  (全称为  Kohn-Sham, 计算复杂度为    O N ) 等, 其中  N  特指物理体系中包含的电子数. 我们称使用上述方法得
                                                (
                                                  3
                 到的能量、波函数等属性的精度为第一性原理精度. 当前, AIMD                  在纳米材料    [6] 、相变  [7] 等的实际应用和理论研究
                 中发挥了重要作用. 然而第一性原理的计算方法受限于时间尺度和空间尺度, 目前只能模拟皮秒                               (ps) 尺度的运动
                 和最多数千原子量级的规模.
                    经典力场    (也叫传统方法) 的核心是构建具有解析形式的多体势函数, 它可以解决长时间尺度和大空间尺度
                 的模拟问题. 常见的势函数法有: LJ (Lennard-Jones) 方法        [8] 、EAM (embedded atom method) 法  [9] 、ReaxFF
                 (reactive force field) 方法  [10] 等. 势函数法采用基于经验参数的势函数以减少计算量, 因此计算速度快, 能模拟更大
                 的分子或原子体系和更长时间步的运动. 例如相变反应                  [11] 、球分子  [12] 、金属中的杂质、表面和其他缺陷        [13] 、合
                 金  [14] 、碳氢化物的氢化反应    [15]  等研究. 在采用势函数法时, 需要人工手动设定键、角、二面角等相关参数、势函
                 数方法的精度高度依赖于势函数的参数选取, 目前势函数法主要问题为精度问题.
                    神经网络力场随着深度学习技术近年的发展逐渐成为研究热点. 其核心是利用高精度的第一性原理计算数据
                 和深度学习网络拟合高维的势函数. 神经网络方法的分子动力学模拟相比于基于薛定谔方程的多体或单体的求解
                                                                               N  特指原子数. 同时, 当我们采用
                 方法, 极大程度地降低了计算复杂度, 其计算复杂度降为                 O(N), 这里的体系规模
                 第一性原理精度的数据对神经网络的力场模型进行训练时, 能够得到接近第一性原理精度的预测结果, 弥补了传
                 统方法精度不够的问题. 鉴于神经网络方法的分子动力学模拟具有比                       AIMD  更低的计算复杂度和比经典力场更
                 高的预测精度, 使得超大体系的有效模拟成为可能, 例如在超算系统上能模拟数十亿原子的运动                               [16,17] 等工作的出
                 现. 神经网络的力场模型的设计在结合不变性、等变性、对称性的情况下, 在多种体系下都取得了可观的预测精
                 度. 例如  SNAP [18] 、SIMPLE-NN [19] 、HDNNP [20−22] 、BIM-NN [23] 、CabanaMD-NNP [24] 、SPONGE [25] 、DeePMD [26] 、
                 DTNN  [27] 、Enn-s2s [28] 、PaiNN  [29] 、NewtonNet [30] 、NequIP [31] 、DimeNet++ [32,33] 、SpookyNet [34] 等模型应用在铜
                 (Cu)、硅  (Si)、钽  (Tantalum)、晶体  (bulk crystals)、水  (H 2 O)、二氧化硅  (SiO 2 )、有机小分子、碳氢化物  (C 10 H 2 、
                 C 10 H 3 等) 的预测上.
                    然而在神经网络力场模型的训练过程中, 需要经验式地预先确定好超参才能保证收敛效果. 训练过程中的超
                 参数包括: 初始学习率的设置、学习率的衰减策略及参数、损失函数的构造组成等. 例如                             DeePMD-kit 默认采用
                 Adam  优化器, 初始学习率为     0.001, 学习率在训练过程中按       0.95  指数衰减且每  5 000  步衰减一次, 损失函数前的系
                 数动态调整. 不当的超参数设置会对收敛速度和精度产生影响, 目前并没有一套公认的超参数的选取标准在不同
                 数据集和不同神经网络力场模型下均能适用. 最近, 一种基于卡尔曼滤波理论的拟牛顿法作为神经网络力场训练
                 的优化器在    DeePMD-kit 上已经取得了较好的效果         [35] , 文中实验表明能加速收敛过程, 但没有提及该优化器在其
                 他神经网络力场训练模型上的训练方法              (包括不同模型上卡尔曼滤波算法的参数设置) 及迁移效果.
   178   179   180   181   182   183   184   185   186   187   188