Page 219 - 《软件学报》2025年第8期
P. 219
3642 软件学报 2025 年第 36 卷第 8 期
间进一步增大. 尽管采用神经网络进行表征学习的方式可以在某种程度上压缩状态空间, 但目前还不清楚上述聚
类抽象的系统空间和真实系统空间是否具有语义一致性.
此外, 因果推理是一门研究因果关系及其在各种复杂系统和现象中的作用与影响的科学 [23] . 它通过分析变量
之间的因果联系, 揭示事物发展的内在机制和规律, 从而为决策和优化提供理论依据和方法支持. 因此, 本文提出
基于因果时空语义的双阶段抽象方法, 从 ICPS 状态价值语义、动作价值语义以及迁移概率语义等方面进行剖析,
刻画系统不同时间空间下的价值. 通过将这些涵盖的语义作为抽象输入, 进而实现保持抽象模型与真实模型的语
义等价性, 并缩小模型规模.
4 基于因果时空语义的抽象模型构建
本节将探讨模型抽象的核心问题——如何度量不同状态之间的相似度, 并据此判断它们是否可归入为同一抽
象状态. 解决该问题对于构建 ICPS 场景中的抽象 MDP 模型至关重要. 为此, 本文提出了一种基于因果时空语义
的深度强化学习抽象建模方法, 该方法在保持真实马尔可夫决策过程语义信息的同时, 实现状态的有效抽象. 具体
来说, 第 1 阶段从具体状态的各个特征出发, 依据特征间的因果关系, 确定特征的语义计算方法. 通过衡量不同语
义粒度划分对语义特征抽象的影响, 实现对状态特征的精确抽象. 第 2 阶段, 借助时空语义信息, 构建了时空语义
度量, 并采用 (ε,d) -抽象方法, 构建场景的抽象 MDP 模型. 图 3 展示了基于因果时空语义的深度强化学习抽象建
模的方法框架, 主要包含以下 3 个部分.
路径数据集
路径=(s 0 , a 0 , r 0 , s 1 , a 1 , r 1 , s 2 , a 2 , r 2 ,…, s n )
1 2 3
基于因果时空语义的状态抽象 基于区间盒动作抽象 构建场景抽象 MDP
样本的均值 估计的均值 误差的上限 数据集大小
a+
A=(a 0 , a 1 , a 2 ,..., a n−1 )
基于因果语义的特征区间化
霍夫丁不等式 P(|X−μ|≥ε)≤2 e −2nε 2
区间盒
S=(s 0 , s 1 , s 2 ,..., s n )
y ε
因果图 抽象 MDP
a 1 0.7
S l =(s 0l , s 1l , s 2l ,..., s nl ) s 0 s 1
1
x a 2 0.3
基于时空语义的(ε, d)-抽象 0.9 0.1
抽象动作 A=(a 0 , a 1 , a 2 ,..., a n−1 )
时空语义度量→S=(s 0 , s 1 , s 2 ,..., s n )
1 1
上下界 [l , u ] s 3 s 2
i i
图 3 基于因果时空语义的抽象方法框架
(1) 基于因果时空语义的状态抽象: 因果时空语义涵盖状态特征间的因果关系以及状态之间的时空关系. 根据
状态特征间的因果语义, 实现对状态特征的压缩, 并进行区间化处理. 时空语义引入了价值信息、时空信息和概率
信息, 通过时空语义度量评估状态之间的相似程度, 从而进行状态抽象. 时空价值语义能够更全面地捕捉状态之间
的关联性, 提高抽象模型的准确性和实用性.
(2) 基于区间盒的动作抽象: 通过区间盒抽象, 将连续动作空间等距离地划分为单位区间, 并根据具体环境和
问题的特性调整抽象粒度, 以提升强化学习算法对动作选择问题的处理能力, 同时降低计算复杂度.
(3) 构建场景的抽象 MDP: 收集安全路径数据集, 提出迁移空间的概念, 并运用霍夫丁不等式设计迁移概率计
算公式, 以提高迁移概率的准确性. 同时, 结合抽象状态和抽象动作, 构建场景的抽象 MDP 模型.

