Page 225 - 《软件学报》2025年第8期
P. 225
3648 软件学报 2025 年第 36 卷第 8 期
式既能保证抽象动作在仿真真实系统行为时高度接近, 又能避免由于错误选择粒度而导致模型不稳定和预测误
差. 这一原则对于使用抽象 MDP 模型解决实际问题尤其重要, 在需要进行准确控制和决策的复杂系统中具有重
要理论价值和实践意义.
4.3 构建场景的抽象 MDP
本节重点讨论在随机环境中构建该场景的马尔可夫决策过程 [29] , 图 6 展示了该方法的具体步骤.
动作 A=(a 0 , a 1 , a 2 ,..., a n−1 ) ਫ਼ࣥ Traces=(s 0 , a 0 , s 1 , a 1 ,..., s n ) ሑ S=(s 0 , s 1 , s 2 ,..., s n )
基于因果语义的特征区间化抽象
y 构建抽象迁移空间
基于区间盒的动作抽象
S I =(s 0 I , s 1 I , s 2 I ,..., s n I )
x 基于时空语义的 (ε,d)-抽象
a 1 0.7
s 0 s 1
1
a 2
0.3
抽象动作 A=(a 0 , a 1 , a 2 ,..., a n−1 ) 0.9 0.1 抽象状态 S=(s 0 , s 1 , s 2 ,..., s n )
1 s 2 1
s 3
抽象 MDP
图 6 抽象 MDP 的构建过程示意图
抽象主要包括 3 个步骤: 基于因果时空语义的状态抽象、基于区间盒的动作抽象以及迁移空间构建. 通过运
用算法 1 和算法 2, 状态抽象对状态空间进行压缩, 以捕捉其关键特征. 根据第 4.2 节内容, 动作抽象将真实世界中
的连续多样的动作离散化为不同区间, 每个区间代表一组相似的动作. 本节将描述迁移空间的构建过程.
ˆ T : ˆ S × ˆ A → ˆ S , 抽象迁移空间是一组具体状态之
使用抽象状态空间 ˆ S 和抽象动作空间 ˆ A, 构建抽象迁移空间
′ ′ ˆ s ˆ s 之
′
间实际迁移的集合. 特别地, 如果存在具体状态 s ∈ ˆs 和 s ∈ ˆs 之间的实际迁移, 则相应地建立起抽象状态 和
′
′ ˆ s 是抽象状态. 抽象迁移共享相同的起始状态和目标状态, 通过迁
ˆ s
间的抽象迁移, 其中 s 和 s 是具体状态, 而 和
ˆ s
′
移概率函数来表示抽象模型. 具体而言, η(ˆs,ˆa,ˆs ) 表示在当前状态 和当前动作 的条件下访问 ˆ s 的概率, 且
ˆ a
′
∑
η(ˆs,ˆa,ˆs ) = 1. 迁移概率定义如下:
′
ˆ s ′ ∈ ˆ S
{ }
′ ′
(ˆs,ˆa,ˆs ) ∈ ˆ T|ˆs ∈ ˆ S ,ˆa ∈ ˆ A,ˆs ∈ ˆ S
′
η(ˆs,ˆa,ˆs ) = { (10)
}
(ˆs,ˆa,_) ∈ ˆ T|ˆs ∈ ˆ S ,ˆa ∈ ˆ A
ˆ s 的具体迁移数量除以从抽象状态 出发
¯ s
′
换言之, 迁移概率是通过从抽象状态 ¯ s 经过执行动作 ˆ a 到抽象状态
的所有实际迁移数量来计算的.
迁移过程如算法 3 所示, 首先初始化抽象迁移空间 ˆ T 为 0, 并设置一个布尔变量 refined 为假, 表示迁移空间的
构建尚未完成. 随后, 算法进入一个循环过程, 持续对迁移概率进行估计和验证, 直到满足精确度要求. 在每一次循
环中, 算法遍历所有抽象状态和动作的组合 ( ˆ s, ˆa), 对于每一组合, 则进一步遍历所有可能的目标抽象状态 , 并根
ˆ s 0
据公式 (10) 计算它们之间的迁移概率 ˆ p. 这一计算步骤是基于预定义的迁移事件集合 ˆ T 和当前的抽象状态与动作
来执行的. 接着, 再利用霍夫丁不等式计算当前迁移概率估计误差 error 的同时与预设偏差阈值 ε 进行比较. 如果
得到误差小于阈值 ε 的结果, 则说明当前迁移概率估计已足够准确, 并将该迁移概率及其相应状态和动作组合添
ˆ T , 并将 标记为真以指示达到了所需精确度水平. 当所有抽象状态和动作组合均经过上
加至抽象迁移空间 refined
述检验与添加操作, 并无更多组合需要进一步优化时, 循环结束并输出所构建抽象迁移空间.
算法 3. 迁移空间构建算法.
ˆ T ε;
输入: 抽象状态集合 ˆ S , 抽象动作集合 ˆ A, 迁移事件集合 , 偏差阈值

