Page 184 - 《软件学报》2025年第9期
P. 184
胡思宇 等: 基于层重组扩展卡尔曼滤波的神经网络力场训练 4095
本文观察到在神经网络的力场模型的训练过程中使用一阶优化器时, 超参数选取对模型收敛精度的影响. 本
文的主要贡献为: (1) 采用交替训练方法替代联合训练, 以解决损失函数中多项目标的权重配比问题, 并分析交替
训练方法相比于联合训练方法带来的精度收益和训练时间开销; (2) 对层重组的卡尔曼滤波算法的分块阈值建立
性能模型, 避免在通用的神经网络力场模型中手动设置分块阈值的问题, 并验证该模型的有效性; (3) 理论证明层
重组的卡尔曼滤波优化器能避免梯度爆炸, 并验证训练过程中的参数, 如权重初始化、激活函数在神经网络力场
模型训练时的鲁棒性. 总的来说, 在基于拟牛顿法的层重组卡尔曼滤波优化器的神经网络力场模型训练中, (1) 和
(2) 为本文提出的避免超参数微调的策略, (3) 给出该优化器在网络训练过程中具备的良好性质. 最后在 4 种典型
的神经网络力场网络下对 11 个真实数据集进行测试, 层重组卡尔曼滤波优化器达到和一阶优化器相当的精度时
(8 个典型体系), 在 4 种不同的模型中平均加速比为 8–10 倍.
本文第 1 节介绍神经网络力场和优化器的相关方法和研究现状. 第 2 节先展示我们对一阶优化器训练力场模
型的观察与挑战, 为了应对这些挑战, 进而给出层重组卡尔曼滤波优化器的避免调参策略和防止梯度爆炸的理论
证明. 第 3 节给出实验设置和数值结果, 并进行结果分析. 最后总结全文.
1 相关工作和背景
首先介绍神经网络力场训练的整体流程和有代表性的神经网络力场模型. 然后介绍神经网络的训练算法, 包
括一阶方法和二阶方法. 接着引入卡尔曼滤波算法在一般的线性测量系统和神经网络的非线性测量系统下的预测-
修正过程; 最后描述改进的卡尔曼滤波算法 (层重组卡尔曼滤波优化器) 应用于神经网络权重更新的完整迭代过程.
神经网络的力场训练一般分为以下步骤.
(1) 计算邻居列表, 如图 1(a) 所示. 为了方便理解, 先以一个中心原子 i 为例进行介绍, 预先选取一个截断半径,
在该截断半径之内的原子 ( j1, j2,..., jM) 认为是原子 i 的邻域原子, 计算各个邻域原子与中心原子在 xyz 这 3 个方
向上的距离差、笛卡尔距离, 进而得到邻居列表.
(2) 计算特征, 特征的获取可以分为两种: 根据经验公式显式计算出、在训练过程中生成, 分别对应显式的特
征设计和隐式的特征设计方法, 如图 1(b) 所示. 显式的特征设计指通过含经验参数的解析函数得到各个体系的特
征, 代表工作有文献 [18,20−22,36−40]. 隐式的特征设计指直接以邻居列表作为输入, 通过在神经网络中加入不变
或等变性的约束得到满足物理性质的原子特征, 代表工作有文献 [26−34].
(3) 拟合网络, 如图 1(c) 所示, 得到每个原子的特征表示后, 再通过拟合网络即可得到每个原子的能量. 根据拟
合网络模型结构的不同, 可将神经网络力场模型分为基于全连接、基于图神经网络等的力场模型.
(4) 计算总能量和每个原子受力, 如图 1(d) 所示. 总的原子能量是由单个原子能量累加得到的, 为了保证能量
守恒, 每个原子受力是由总能量对单个原子的位置求导数计算得到.
(5) 权重的更新, 神经网络训练的过程是优化神经元参数, 也即权重的取值的过程. 权重不断迭代以损失函数
最小化为目标. 如图 1(e) 所示, 已知第 t 次迭代的权重, 根据当前样本, 经过网络的前向计算得到损失值. 再根据损
失值进行反向传播, 得到权重更新的增量. 结合第 t 次迭代的权重上, 更新得到第 t +1 次迭代的权重值.
根据获取特征方式的不同, 神经网络力场可分为隐式特征计算的神经网络力场和显式特征计算的神经网络力
场. 隐式特征计算的神经网络力场模型的原子特征会随着神经网络的训练, 实时变化. 隐式特征计算的神经网络力
场模型包括深度势能模型和 NequIP 模型等. 显式特征计算的神经网络力场模型通过预先选取解析函数、设置解
析函数的参数, 当样本位置信息给定时, 得到确定的特征, 不随神经网络的训练而变更. 整体来看, 隐式特征计算的
神经网络力场模型的网络结构更复杂, 参数量更大, 训练时间更长, 适用的场景更多. 显式计算特征的神经网络力
场模型的特点为: 模型的可解释性强, 拟合网络相对简单, 解析函数在特定应用场景下具有较强的适用性.
隐式特征计算的神经网络力场模型中, 深度势能模型和 NequIP 是近年来最具代表性的两个神经网络力场模
型, 分别基于全连接和图神经网络的骨架. 深度势能模型首先采用一个嵌入网络 (embedding network) 对原子间笛
)
DP DP ( DP T R i R G , 计算得到深度势能模型的特
DP
T
卡尔距离进行编码, 输出记为 G , 再通过一个对称性保持操作 D = G
i i i i i
DP
征 D . 通过此种对称性保持操作得到的特征具有平移、旋转和置换不变性. 深度势能网络在水等数据集上取得
i

