Page 228 - 《软件学报》2025年第8期
P. 228

田丽丽 等: 因果时空语义驱动的深度强化学习抽象建模方法                                                    3651


                 评估:

                                                              | ¯ S |
                                                         CR =                                        (11)
                                                              |S |

                                                         1  n ∑
                                                   MAE =     MEAN |y−ˆy|                             (12)
                                                         n
                                                           i=1
                                                         y
                                                                              ˆ y
                 其中,  | ¯ S | 表示抽象状态个数,  |S | 原始具体状态个数,   是抽象模型的预测输出,   是真实模型输出,             MEAN |y−ˆy| 测
                 量了一次试验中偏离参考值的平均值,             n 表示一次实验中抽象模型产生的抽象状态个数.               CR 评价抽象模型的简洁
                 性, 即是否具有好的抽象效果, MAE         揭示抽象模型的准确性, 即能否保留原始语义信息.                 (ε,d) -抽象阈值  ε 分别由
                 Canopy  聚类算法、肘方法     (Elbow) 和  Gap  确定.
                    实验结果如表      2  所示, 压缩率  (CR) 表明抽象过程能够有效地减小系统的状态、动作和转移空间. 实际上, 不
                 同矩阵的压缩效果均达到了          99%  以上, 抽象状态模型中最多仅包含数百个不同的抽象状态, 相比之下, 真实模型
                 中存在数万个具体状态. 对于时空价值矩阵和欧氏矩阵, 在缩小规模相近的情况下, 基于因果时空价值语义的抽象
                 方法呈现出相对较小的平均绝对误差             (MAE), 因此可以更好地保留原始状态的价值语义信息.

                                                 表 2 不同度量矩阵对比分析

                             度量矩阵        ICPS系统   ε确定方法     状态个数    抽象状态个数      CR (%)   MAE
                                                   Canopy               53      0.268 7  7.275 5
                                          LKA      Elbow     19 728     12      0.060 8  12.348 5
                                                    Gap                  4      0.020 7  47.625 4
                                                   Canopy               53      0.223 1  3.362 3
                             欧氏矩阵         ACC      Elbow     23 756      8      0.033 6  5.893 6
                                                    Gap                  3      0.012 6  122.232 3
                                                   Canopy               225     0.381 4  3.423 7
                                          ICA      Elbow     58 991     137     0.232 2  6.628 4
                                                    Gap                 26      0.044 1  48.557 5
                                                   Canopy               49      0.248 3  5.177 8
                                          LKA      Elbow     19 728     20      0.101 4  8.677 5
                                                    Gap                  6      0.030 4  126.957 4
                                                   Canopy               50      0.210 5  1.233 6
                          因果时空价值矩阵        ACC      Elbow     23 756     12      0.050 5  4.465 3
                                                    Gap                 17      0.071 7  3.354 5
                                                   Canopy               302     0.511 9  1.115 8
                                          ICA      Elbow     58 991     156     0.264 4  3.423 6
                                                    Gap                 33      0.055 9  27.785 3

                    实验结果表明, 基于因果时空价值矩阵的抽象方法能够以简洁且准确的方式描述这                             3  个系统的语义特征. 换
                 言之, 基于因果时空语义的抽象模型为理解系统状态提供了一种更为简化且直观的方式.
                    对  RQ1  的回答: 基于时空价值语义的抽象可以有效地降低系统的复杂度, 并精确地捕获系统特征.
                    ● RQ2: 如何保证抽象模型与真实马尔可夫模型的语义等价性?
                    为了回答    RQ2, 采用  PRISM  验证器建模该抽象模型, 其中, 需要保留状态的必要信息, 包括奖励、迁移概率、
                 超出车道信息和碰撞信息等. 通过使用            PRISM  进行模型仿真, 定义与奖励和危险信息相关的性质, 以评估抽象模
                 型在逼近真实马尔可夫模型的程度. 在此过程中, 将深入研究抽象模型的决策效果, 探究其在决策方面的优势和局
                 限性.
                    表  3  中, 将不同案例的抽象模型转换为          PRISM  的验证模型, 并定义模型需要满足的性质             [33]  , 通过  PRISM
                 统计模型检测, 实现衡量基于时空价值矩阵的抽象模型与真实模型之间的语义等价性. 以十字路口场景为例,
                 R min =?[C<= 60] 表示智能体在  60  步内的最小预期累计奖励,      P max =?[F<= 60;isOutOfLane = 1] 表示智能体在  60  步
   223   224   225   226   227   228   229   230   231   232   233