Page 222 - 《软件学报》2025年第8期
P. 222
田丽丽 等: 因果时空语义驱动的深度强化学习抽象建模方法 3645
输出: 区间化的抽象空间 ˆ S I .
1. ˆ S I ← ∅ //初始化抽象过程
2. while !refined do
3. for each j ∈ {1,..., J} do
4. d j ← s 根据 Θ j , d MAX , d MIN , n MIN 进行区间化划分
5. end for
6. D ← d 1 ,...,d J //形成区间化特征集合
7. ˆ S I ← 将 D 映射为状态
8. e mean ,e max ← 计算 ˆ S I 与 S 之间误差
(
9. r cur ← 根据 ˆ S I ,S ) 计算特征压缩率
10. if e mean > e MEAN or e max > e MAX or r cur > r d then
d MAX , d MIN , n MIN //如有必要, 更新区间参数
11. 更新
12. else
13. refined ← True //如果条件满足, 则结束细化
14. end if
15. end while
16. 返回 ˆ S I //返回区间化的抽象空间
基于因果语义的特征区间化抽象不仅减少了 ICPS 中庞大的状态空间, 也为描述系统状态提供了一种人类可
理解的方式, 使得设计人员在面对传感器收集的海量数据时, 依然能够直观地理解系统的特性和控制器的行为. 即
便在预定义的误差参数 e MEAN 设定为接近零的极端情况下, 算法 1 也能保证收敛, 即在最不利的情况下返回原始数
据构建的 MDP. 通过特征区间化抽象, 具有相近语义值的具体状态被有效地映射至相同的区间化抽象状态, 为基
于时空语义度量的进一步抽象提供了基础.
(ε,d) -抽象
4.1.2 基于因果语义的时空
上述基于因果语义的特征区间化抽象缩减了状态空间, 但是其简化程度仍然受到抽象粒度的影响. 为此, 我们
(ε,d) -抽象, 实现更加灵活和精确的模型抽象.
进一步提出基于因果语义的时空
定义 5. 时空语义. 对于任意具体状态 s ∈ S , 时空语义 θ = Θ{V( s),Q(s,a),R(s,a),P(s, s ),...}, 其中 θ ∈ R . 这里
n
′
s
的 θ 表示通过映射函数 Θ : S → θ 从状态 提取出的语义值, 包括了状态的多维特征, 例如状态价值函数 V (s)、动
作价值函数 Q(s,a)、奖励函数 R(s,a) 和迁移概率函数 P(s, s') 等.
Θ 用于捕获状态固有属性, 并将所处状态转化为语义空间中的坐标. 时空语义极大地丰富
其中, 语义映射函数
了对状态演变过程的认知, 提供了一个从时间和空间特征捕捉状态动态变化的分析框架. 通过这一框架, 能够更加
(ε, d) -抽象方法 [21] 实现对经过因果语义区
宏观地评估不同状态之间的等价性, 实现高效抽象. 除此之外, 我们采用
间化后的状态进一步抽象.
定义 6. (ε, d) -抽象. (ε, d) -抽象定义为一个映射: Φ ε,d : S → ˆ S , 该映射需要满足下列条件:
−1
d(s 1 ,s 2 ) ⩽ ε, ∀ˆs ∈ ˆ S , s 1 ,s 2 ∈ Φ (ˆs) (8)
ε,d
ˆ S
其中, Φ : S → ˆ S 表示为抽象映射函数, 将原始状态空间 S 映射为一个抽象状态空间 . 映射函数 Φ 可以将一个真
−1
实马尔可夫模型转化为抽象模型. 令 Pow(S ) 表示为 S 的幂集, Φ : ˆ S → Pow(S ) 表示函数的逆映射. 状态抽象的核
d 表示状态度量矩阵, ε 表示抽象阈值.
心是测量状态之间的相似性, 并根据状态相似度进行近邻抽象. 其中
根据马尔可夫决策过程中的状态价值函数和动作价值函数可知, 如果两个状态的迁移模型和奖励相似, 那么
两个状态下的期望累积奖励也是相似的. 这为状态抽象提供了一种简化方法, 即奖励函数和迁移概率可组成该状
态的时空价值矩阵, 从而在基于时空价值语义抽象的过程中, 尽可能地保持抽象马尔可夫决策过程的最优值函数,

