Page 228 - 《软件学报》2025年第8期

P. 228

田丽丽等: 因果时空语义驱动的深度强化学习抽象建模方法 3651

评估:

| ¯ S |
CR = (11)
|S |

1 n ∑
MAE = MEAN |y−ˆy| (12)
n
i=1
y
ˆ y
其中, | ¯ S | 表示抽象状态个数, |S | 原始具体状态个数, 是抽象模型的预测输出, 是真实模型输出, MEAN |y−ˆy| 测
量了一次试验中偏离参考值的平均值, n 表示一次实验中抽象模型产生的抽象状态个数. CR 评价抽象模型的简洁
性, 即是否具有好的抽象效果, MAE 揭示抽象模型的准确性, 即能否保留原始语义信息. (ε,d) -抽象阈值 ε 分别由
Canopy 聚类算法、肘方法 (Elbow) 和 Gap 确定.
实验结果如表 2 所示, 压缩率 (CR) 表明抽象过程能够有效地减小系统的状态、动作和转移空间. 实际上, 不
同矩阵的压缩效果均达到了 99% 以上, 抽象状态模型中最多仅包含数百个不同的抽象状态, 相比之下, 真实模型
中存在数万个具体状态. 对于时空价值矩阵和欧氏矩阵, 在缩小规模相近的情况下, 基于因果时空价值语义的抽象
方法呈现出相对较小的平均绝对误差 (MAE), 因此可以更好地保留原始状态的价值语义信息.

表 2 不同度量矩阵对比分析

度量矩阵 ICPS系统 ε确定方法状态个数抽象状态个数 CR (%) MAE
Canopy 53 0.268 7 7.275 5
LKA Elbow 19 728 12 0.060 8 12.348 5
Gap 4 0.020 7 47.625 4
Canopy 53 0.223 1 3.362 3
欧氏矩阵 ACC Elbow 23 756 8 0.033 6 5.893 6
Gap 3 0.012 6 122.232 3
Canopy 225 0.381 4 3.423 7
ICA Elbow 58 991 137 0.232 2 6.628 4
Gap 26 0.044 1 48.557 5
Canopy 49 0.248 3 5.177 8
LKA Elbow 19 728 20 0.101 4 8.677 5
Gap 6 0.030 4 126.957 4
Canopy 50 0.210 5 1.233 6
因果时空价值矩阵 ACC Elbow 23 756 12 0.050 5 4.465 3
Gap 17 0.071 7 3.354 5
Canopy 302 0.511 9 1.115 8
ICA Elbow 58 991 156 0.264 4 3.423 6
Gap 33 0.055 9 27.785 3

实验结果表明, 基于因果时空价值矩阵的抽象方法能够以简洁且准确的方式描述这 3 个系统的语义特征. 换
言之, 基于因果时空语义的抽象模型为理解系统状态提供了一种更为简化且直观的方式.
对 RQ1 的回答: 基于时空价值语义的抽象可以有效地降低系统的复杂度, 并精确地捕获系统特征.
● RQ2: 如何保证抽象模型与真实马尔可夫模型的语义等价性?
为了回答 RQ2, 采用 PRISM 验证器建模该抽象模型, 其中, 需要保留状态的必要信息, 包括奖励、迁移概率、
超出车道信息和碰撞信息等. 通过使用 PRISM 进行模型仿真, 定义与奖励和危险信息相关的性质, 以评估抽象模
型在逼近真实马尔可夫模型的程度. 在此过程中, 将深入研究抽象模型的决策效果, 探究其在决策方面的优势和局
限性.
表 3 中, 将不同案例的抽象模型转换为 PRISM 的验证模型, 并定义模型需要满足的性质 [33] , 通过 PRISM
统计模型检测, 实现衡量基于时空价值矩阵的抽象模型与真实模型之间的语义等价性. 以十字路口场景为例,
R min =?[C<= 60] 表示智能体在 60 步内的最小预期累计奖励, P max =?[F<= 60;isOutOfLane = 1] 表示智能体在 60 步

223 224 225 226 227 228 229 230 231 232 233