Page 192 - 《软件学报》2025年第9期
P. 192

胡思宇 等: 基于层重组扩展卡尔曼滤波的神经网络力场训练                                                    4103


                 力的收敛精度为      0.0735±0.0046, 0.07635±0.00155, 具有较小的误差方差  (0.001  量级). 在权重不同初始化分布和不
                 同取值的情况下, 能量和原子受力最终收敛的               RMSE  的误差界   (error bar) 分别为±0.0046  和±0.00155, 波动幅度
                 为±6.26%  和±2.03%.

                                      表 2 铜体系基于层重组卡尔曼滤波优化器的鲁棒性验证

                    配置序号                   参数说明                   能量RMSE (eV)        力RMSE (eV/Angstrom)
                     配置①             权重初始化: Xavier_uniform         0.033 3/0.070 0      0.058 5/0.076 2
                     配置②             权重初始化: Xavier_normal          0.033 2/0.068 9      0.058 3/0.074 8
                     配置③          权重初始化: Init_uniform U(0, 0.001)  0.034 0/0.078 1      0.058 5/0.077 4
                     配置④          权重初始化: Init_normal N(0, 0.001)   0.033 7/0.076 7      0.058 7/0.077 9
                     配置⑤                激活函数: Sigmoid              0.040 3/0.049 5      0.058 4/0.070 5
                     配置⑥                激活函数: Softplus             0.039 9/0.069 7      0.058 3/0.074 3
                     配置⑦                 激活函数: ReLU                0.045 1/0.057 3      0.067 5/0.081 0
                     配置⑧               激活函数: LeakyReLU             0.043 8/0.057 9      0.066 8/0.080 1

                    配置①–④均为      tanh  激活函数下的测试结果, 接下来我们验证激活函数的鲁棒性. 我们采用控制变量法, 固定
                 一种相同的数据初始化方法, 不妨选取配置①的权重初始化方法, 以验证不同激活函数的收敛性表现. 常见的激活
                 函数包括   Sigmoid、Softplus、ReLU、LeakyReLU  等. 根据表  2  中配置⑤–⑧的精度结果 (第      30  个  epoch  的能量和
                 原子受力的训练集和测试集的结果), 我们发现: 当使用不同的激活函数进行神经网络训练时, 能量和原子受力的
                 收敛精度为    0.05975±0.01, 0.0755±0.0055, 能量和原子受力的波动幅度为±16.73%     和±7.28%. 激活函数的选取对于
                 最终收敛精度的影响比权重初始化分布大, 配置④–⑧均收敛, 没有出现梯度爆炸现象.

                 3   实验结果与分析

                    数据集: 我们构建了      12  个不同体系的含周期性边界条件的数据集, 数据集的具体配置见表                     3. 第  2、3  列分别
                 表示其对应的详细结构信息和样本量, 其中面心立方                 (face-centered-cubic, FCC)、体心立方  (body-centered-cubic,
                 BCC)、六方密堆积     (hexagonal-close-packed, HCP)、钻石立方  (diamond-cubic, DC)、表面吸附  (surface-adsorption,
                 SA). 第  4  列记录了每一个样本中的原子总数, 这些数据集中的原子总数最高达                   192. 训练这一类的数据     (包含多个
                 相位的、原子总数较大的、有周期性边界条件) 相比于小分子数据, 是一个更具挑战性的工作. 表中样本均由
                 PWmat [54] 的软件计算得到的第    1  性原理精度的数据. 在数据生成时, 为了扩大数据集覆盖的样本空间, 我们在生成
                 连续的   2  个样本时, 取了稍大的时间步长        (第  5  列, 单位为  femtosecond (fs)).

                                                      表 3 数据集描述

                             体系            结构           样本量        单样本原子总数          时间步长 (fs)
                              Cu           FCC           1 646         108              1
                              Ag           FCC           2 015          32            2.5–3
                              Al           FCC           4 000          64            2–3.5
                              C          Graphene        4 000          64            2–3.5
                              Li       BCC, FCC, HCP     1 000         192             0.5
                              Mg           HCP           4 000          36            0.5–2
                               S            S 8          2 000         128             3–5
                              Si           DC            3 000          72            2.5–3.5
                             CuO           FCC           1 000          64              3
                              H 2 O       Liquid         4 000          48             0.5
                             Cu+C           SA           2 000         118            3–3.2
                             NaCl          FCC           3 193          64            2–3.5
   187   188   189   190   191   192   193   194   195   196   197