Page 182 - 《软件学报》2025年第9期
P. 182
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(9):4093−4109 [doi: 10.13328/j.cnki.jos.007258] [CSTR: 32375.14.jos.007258] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
基于层重组扩展卡尔曼滤波的神经网络力场训练
胡思宇 1,2 , 周远昌 1,2 , 赵 曈 1,2 , 汪林望 3 , 贾伟乐 1,2 , 谭光明 1,2
1
(处理器全国重点实验室 (中国科学院 计算技术研究所), 北京 100190)
2
(中国科学院大学, 北京 100049)
3
(中国科学院 半导体研究所, 北京 100190)
通信作者: 谭光明, E-mail: tgm@ict.ac.cn
摘 要: 分子动力学模拟在材料模拟、生物制药等领域发挥着重要作用. 近年来, 科学智能 (AI-for-Science) 发展,
尤其是神经网络力场在预测能量、力等性质的问题上, 相比于传统势函数方法在准确性上有大幅提升. 针对当前
的神经网络力场模型在使用一阶训练方法时出现的超参设置敏感和梯度爆炸问题, 给出层重组卡尔曼滤波器在避
免超参数设置问题上的若干策略和防止梯度爆炸的理论证明. 基于层重组卡尔曼滤波器, 制定交替训练方法并分
析该方法的精度收益和时间成本、提出分块阈值的性能模型并论述该模型的有效性、证明防止梯度爆炸的性质
并验证该优化器关于激活函数和权重初始化的鲁棒性. 对 4 种典型的神经网络力场模型在 11 个有代表性的数据
集进行测试, 实验表明, 当层重组卡尔曼滤波器和一阶优化器达到相当的预测精度时, 层重组卡尔曼滤波器相比于
一阶方法快 8–10 倍. 可以相信, 所提出的层重组卡尔曼滤波训练方法能给其他的科学智能应用带来启发.
关键词: 科学智能; 神经网络; 力场训练; 层重组扩展卡尔曼滤波优化器; 分子动力学模拟
中图法分类号: TP18
中文引用格式: 胡思宇, 周远昌, 赵曈, 汪林望, 贾伟乐, 谭光明. 基于层重组扩展卡尔曼滤波的神经网络力场训练. 软件学报,
2025, 36(9): 4093–4109. http://www.jos.org.cn/1000-9825/7258.htm
英文引用格式: Hu SY, Zhou YC, Zhao T, Wang LW, Jia WL, Tan GM. Neural Network Force Field Training Based on Reorganized
Layer-wised Extended Kalman Filtering. Ruan Jian Xue Bao/Journal of Software, 2025, 36(9): 4093–4109 (in Chinese). http://www.jos.
org.cn/1000-9825/7258.htm
Neural Network Force Field Training Based on Reorganized Layer-wised Extended Kalman
Filtering
1,2
1,2
1,2
3
1,2
HU Si-Yu , ZHOU Yuan-Chang , ZHAO Tong , WANG Lin-Wang , JIA Wei-Le , TAN Guang-Ming 1,2
1
(State Key Lab of Processors (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190, China)
2
(University of Chinese Academy of Sciences, Beijing 100049, China)
3
(Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100190, China)
Abstract: Molecular dynamics simulation plays an important role in material simulation, biopharmaceuticals, and other areas. In recent
years, the development of AI-for-Science has greatly improved the accuracy of neural network force fields in predicting energy, force, and
other properties, compared to traditional methods using potential functions. Neural network force field models may challenges such as
hyperparameter settings and gradient explosion when trained by the first-order method. Based on an optimizer named reorganized layer
extended Kalman filtering, this study provides several strategies to avoid hyperparameters and offers theoretical evidence for preventing
gradient explosion. This study also proposes an alternate training method and analyzes its accuracy gains and time costs. A performance
model of block thresholding is proposed, and its effectiveness is explored. Additionally, the property of preventing gradient explosion is
* 基金项目: 国家自然科学基金 (T2125013, 92270206, 62372435, 62032023, 61972377, 61972380, T2293700, T2293702); 中国科学院战略
性先导科技专项 (XDB0500102); 中国科学院稳定支持青年科学家团队 (YSBR-005)
收稿时间: 2023-10-21; 修改时间: 2024-04-30; 采用时间: 2024-07-25; jos 在线出版时间: 2025-01-08
CNKI 网络首发时间: 2025-01-15

