Page 231 - 《软件学报》2025年第8期
P. 231
3654 软件学报 2025 年第 36 卷第 8 期
Conf. on Machine Learning. Baltimore: PMLR, 2022. 23151–23180.
[28] Jin P, Tian JX, Zhi DP, Wen XJ, Zhang M. Trainify: A CEGAR-driven training and verification framework for safe deep reinforcement
learning. In: Proc. of the 34th Int’l Conf. on Computer Aided Verification. Cham: Springer, 2022. 193–218. [doi: 10.1007/978-3-031-
13185-1_10]
[29] Hu QY, Liu JY. An Introduction to Markov Decision Processes. Xi’an: Xidian University Press, 2000 (in Chinese).
[30] Dosovitskiy A, Ros G, Codevilla F, Lopez A, Koltun V. In: Proc. of the 1st Annual Conf. on Robot Learning. PMLR, 2017. 1–16.
[31] Huang Z, Shen X, Xing J, Liu TL, Tian XM, Li HQ. Revisiting knowledge distillation: An inheritance and exploration framework. In:
Proc. of the 2021 IEEE/CVF Conf. on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021. 3579–3588. [doi: 10.1109/
CVPR46437.2021.00358]
[32] Nachum O, Gu SX, Lee H, Levine S. Data-efficient hierarchical reinforcement learning. In: Proc. of the 31st Advances in Neural
Information Processing Systems. Montréal, 2018. 3307–3317.
[33] Reimann J, Mansion N, Haydon J, Bray B, Chattopadhyay A, Sato S, Waga M, André É, Hasuo I, Ueda N, Yokoyama Y. Temporal logic
formalisation of ISO 34502 critical scenarios: Modular construction with the RSS safety distance. In: Proc. of the 39th ACM/SIGAPP
Symp. on Applied Computing. Avila: ACM, 2024. 186–195.
附中文参考文献:
[29] 胡奇英, 刘建庸. 马尔可夫决策过程引论. 西安: 西安电子科技大学出版社, 2000.
田丽丽(1994-), 女, 博士生, 主要研究领域为因 陈逸康(2001-), 男, 硕士, 主要研究领域为机器
果机器学习, 模型的可解释性. 学习, 因果推理.
杜德慧(1979-), 女, 博士, 教授, 博士生导师, 李荥达(2003-), 男, 本科生, 主要研究领域为强
CCF 高级会员, 主要研究领域为可信软件, 信息 化学习, 策略生成.
物理融合系统建模与验证, 人工智能安全可信理
论与方法.
聂基辉(1998-), 男, 硕士, 主要研究领域为强化
学习, 形式化方法.

