Page 185 - 《软件学报》2025年第9期
P. 185
4096 软件学报 2025 年第 36 卷第 9 期
了接近 DFT 计算的精度. 另一种考虑等变性的基于图神经网络的力场在 MD17 等数据集上表现良好, 以 NequIP
神经网络力场模型为例, 原子间距离利用球谐函数进行编码, 再在多项式函数的基础上, 进行多层的非线性变换,
得到的结果与球鞋函数表示进行乘法运算, 以保证输出的等变性.
(1) 计算邻居列表 (2) 计算特征 (3) 拟合网络 (4) 拟合能量和计算受力 (5) 更新权重
显式计算法 计算原子总能 t 步迭代的权重
all
e 基于全连接神经网络 tot
原子总能
cos 前向计算
得到损失
e 遍历体系中其他原子
隐式计算法 基于图神网络 计算原子受力
中心原子i 反向传播
位置: (x i , y i , z i ) tot 得到权重
更新的增量
邻居列表: R ij
tot t+1 步迭代的权重
tot
图 1 基于神经网络方法的原子力场训练整体流程
显式特征计算的神经网络力场的重点在于基组, 以下是有代表性的用于神经网络力场的基组: 两体三体余弦
基组 (2Body-3Body Cosine basis, 2B3B-Cosine) [36] 、两体三体高斯基组 (2Body-3Body Gaussian Basis, 2B3B-
Gaussian) [22] 、多体张量势函数 (multiple tensor potential, MTP) [37] 、频谱领域分析势函数 (spectral neighbor analysis
potential, SNAP) [18] . 这里以 2B3B-Gaussian 解析函数中的两体高斯基组 (2B Gaussian basis) 为例进行详细介绍, 其
他基组可以参考文献 [16,36,37]. 中心原子 i 在两体高斯基组的表示下, 其特征 G 2B 的计算如公式 (1) 所示. 给定一
i
组高斯函数的超参数 {γ,R s }, 其中 γ 用于控制高斯基组分布的离散程度, R s 为分布的均值. 对截断半径 R c 里中心原
j
i
j
子 i 的所有邻居 j, 均可得到邻居 的高斯表示 e −γ(R i j −R s ) 2 , 其中 R ij 为邻居原子 与中心原子 的笛卡尔距离. 为了防
R c 周围有原子的跳进跳出影响中心原子 的特征表示, 可在每个邻居 的高斯表
j
i
止在分子运动过程中在截断半径
)
(
(
示下作用一个光滑函数, 即 f c R ij . 该光滑函数的定义如公式 (2) 所示, 当 R ij 为 0 时, f c R ij 为 ) 1; 当 R ij 趋于截断半
(
)
径 R c 时, f c R ij 按余弦函数衰减为 0, 也即随着邻居原子与中心原子的笛卡尔距离逐渐变远, 该邻居原子对中心原
(
子的影响逐渐变小; 当 R ij 大于截断半径时, f c R ij 为 ) 0, 也即不考虑超过截断半径内的邻居原子对中心原子 i 的影
2B
j
响. 同时为了满足置换不变性, 即邻域原子的先后顺序的选取不改变的值 G , 该基组采用对所有邻居 的经过光
i
滑处理的高斯表示进行求和操作.
∑ all
2B
G = e −γ(R i j −R s ) 2 ( ) (1)
f c R ij
i
j,i
[ ( ) ]
πR ij
0.5× cos
( ) +1 , for R ij ⩽ R c
R c (2)
f c R ij =
0, for R ij > R c
根据更新权重的算法的不同, 基于导数的优化算法可以分为一阶优化方法和二阶优化方法. 一阶优化方法通
常也指梯度下降法, 可写成公式 (3) 的形式, 权重的更新沿着负梯度方向以 η 的步长移动, 典型的代表是 SGD 优化
器. 鉴于更新时直接用梯度的信息可能会包含很多噪声, 进而衍生出改进版本的带有动量的一阶优化器. 基于梯度
下降理论的一阶优化器的变体如 Adam [41] , AdaGrad [42,43] , RMSProp [44] , AdaDelta [45] 等. 二阶优化方法比一阶有着更
强的理论基础, 二阶优化方法可以简写成公式 (4) 的形式. 通常二阶方法具有比一阶方法更快的收敛速度, 这得益
于蕴含在海森矩阵中 (通常用 H 表示) 的信息, 其中 H −1 也称为预条件子. 在公式 (4) 的基础上, 产生了很多二阶方
法的变体, 如 K-FAC [46] , L-BFGS [47,48] , Shampoo [49] , AdaHessian [50] 等.
w t+1 = w t −η∇L( f (x i ;w t ),y i ) (3)

