Page 214 - 《软件学报》2025年第8期

P. 214

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(8):3637−3654 [doi: 10.13328/j.cnki.jos.007354] [CSTR: 32375.14.jos.007354] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563

*
因果时空语义驱动的深度强化学习抽象建模方法

田丽丽 1,3,4 , 杜德慧 2,3,4 , 聂基辉 2,4 , 陈逸康 2,4 , 李荥达 2,4

1
(华东师范大学计算机科学与技术学院, 上海 200062)
(华东师范大学软件工程学院, 上海 200062)
2
3
(华东师范大学智能教育研究院, 上海 200062)
(上海市高可信计算重点实验室 (华东师范大学), 上海 200062)
4
通信作者: 杜德慧, E-mail: dhdu@sei.ecnu.edu.cn
摘要: 随着智能信息物理融合系统 (intelligent cyber-physical system, ICPS) 的快速发展, 智能技术在感知、决策、
规控等方面的应用日益广泛. 其中, 深度强化学习因其在处理复杂的动态环境方面的高效性, 已被广泛用于 ICPS
的控制组件中. 然而, 由于运行环境的开放性和 ICPS 系统的复杂性, 深度强化学习在学习过程中需要对复杂多变
的状态空间进行探索, 这极易导致决策生成时效率低下和泛化性不足等问题. 目前对于该问题的常见解决方法是
将大规模的细粒度马尔可夫决策过程 (Markov decision process, MDP) 抽象为小规模的粗粒度马尔可夫决策过程,
从而简化模型的计算复杂度并提高求解效率. 但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的
系统空间和真实系统空间之间的语义一致性问题. 针对以上问题, 提出基于因果时空语义的深度强化学习抽象建
模方法. 首先, 提出反映时间和空间价值变化分布的因果时空语义, 并在此基础上对状态进行双阶段语义抽象以构
建深度强化学习过程的抽象马尔可夫模型; 其次, 结合抽象优化技术对抽象模型进行调优, 以减少抽象状态与相应
具体状态之间的语义误差; 最后, 结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验, 并使用验
证器 PRISM 对模型进行评估分析, 结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价
性方面具有较好的效果.
关键词: 深度强化学习; 抽象建模; 因果时空语义; 智能信息物理融合系统 (ICPS); 马尔可夫决策过程 (MDP)
中图法分类号: TP18

中文引用格式: 田丽丽, 杜德慧, 聂基辉, 陈逸康, 李荥达. 因果时空语义驱动的深度强化学习抽象建模方法. 软件学报, 2025,
36(8): 3637–3654. http://www.jos.org.cn/1000-9825/7354.htm
英文引用格式: Tian LL, Du DH, Nie JH, Chen YK, Li YD. Causal-spatiotemporal-semantics-driven Abstraction Modeling Method for
Deep Reinforcement Learning. Ruan Jian Xue Bao/Journal of Software, 2025, 36(8): 3637–3654 (in Chinese). http://www.jos.org.cn/
1000-9825/7354.htm

Causal-spatiotemporal-semantics-driven Abstraction Modeling Method for Deep Reinforcement
Learning
2,4
2,4
TIAN Li-Li 1,3,4 , DU De-Hui 2,3,4 , NIE Ji-Hui , CHEN Yi-Kang , LI Ying-Da 2,4
1
(School of Computer Science and Technology, East China Normal University, Shanghai 200062, China)
2
(Software Engineering Institute, East China Normal University, Shanghai 200062, China)
3
(Institute of AI Education, East China Normal University, Shanghai 200062, China)
4
(Shanghai Key Laboratory of Trustworthy Computing (East China Normal University), Shanghai 200062, China)
Abstract: With the rapid advancement of intelligent cyber-physical system (ICPS), intelligent technologies are increasingly utilized in
components such as perception, decision-making, and control. Among these, deep reinforcement learning (DRL) has gained wide

* 本文由“形式化方法与应用”专题特约编辑陈明帅研究员、田聪教授、熊英飞副教授推荐.
收稿时间: 2024-08-26; 修改时间: 2024-10-14; 采用时间: 2024-11-26; jos 在线出版时间: 2024-12-10
CNKI 网络首发时间: 2025-04-17

209 210 211 212 213 214 215 216 217 218 219