Page 229 - 《软件学报》2025年第8期
P. 229

3652                                                       软件学报  2025  年第  36  卷第  8  期


                 内至少超出一次车道的最大概率,            P max =?[F<= 60;isCrashed = 1] 表示智能体在  60  步内至少发生一次碰撞的最大

                 概率, 同时  P max =?[F<= 60;reachDest = 1] 表示智能体在  60  步内至少抵达一次终点的最大概率.

                                           表 3 基于   PRISM  的抽象  MDP  语义误差分析

                           ICPS系统     抽象方法               性质            验证结果      真实值      误差
                                                     R min =?[C<= 51]   44.43    48.50    4.07
                                      欧氏矩阵          [             ]
                                                P max =? F ⩽ 51;isOutOfLane = 1  0.13%  0.0%  0.13%
                             LKA
                                                     R min =?[C<= 51]   46.92    48.50    1.58
                                     时空价值矩阵
                                                P max =?[F⩽ 51;isOutOfLane = 1]  0.10%  0.0%  0.10%
                                                     R min =?[C<= 51]   57.53    59.94    2.41
                                      欧氏矩阵      P max =?[F⩽ 51;isOutOfLane = 1]  0.7%  0.0%  0.7%
                                                P max =?[F⩽ 51;isCrashed = 1]  0.06%  0.0%  0.06%
                             ACC
                                                     R min =?[C<= 51]   60.33    59.94    −0.39
                                                    [             ]
                                     时空价值矩阵 P max =? F ⩽ 51;isOutOfLane = 1  0.01%  0.0%  0.01%
                                                P max =?[F⩽ 51;isCrashed = 1]  0.19%  0.0%  0.19%
                                                     R min =?[C<= 60]   8.38      9.36    0.98
                                      欧氏矩阵      P max =?[F⩽ 60;isCrashed = 1]  18.73%  20.80%  2.07%
                                                P max =?[F⩽ 60;reachDest = 1]  0.17%  4.60%  4.43%
                             ICA
                                                     R min =?[C<= 60]   9.38      9.36    0.02
                                     时空价值矩阵     P max =?[F⩽ 60;isCrashed = 1]  19.35%  20.80%  1.45%
                                                P max =?[F⩽ 60;reachDest = 1]  2.50%  4.60%  2.09%

                    表  3  中的实验结果表明, 基于时空价值矩阵的方法在              R mi 误差  (–0.39~1.58) 和概率误差  (0.01%–2.09%) 上均
                                                                n
                 优于欧氏矩阵     (R mi 误差为  0.98–4.07, 概率误差为  0.06%–4.43%), 更接近真实马尔可夫决策过程, 保障了抽象模型
                               n
                 与真实模型的语义等价性.
                    对  RQ2  的回答: 基于时空价值语义测抽象模型更能够保证与真实模型间的语义等价性, 可以为训练策略提供
                 有意义的指导.

                 6   总 结

                    基于深度强化学习的决策生成过程中, 其状态空间具有高维、复杂的特点, 导致其决策生成的效率低. 如
                 何对深度强化学习的过程进行抽象建模、降低状态空间的复杂度是目前亟需解决的问题. 因此, 本文提出基于
                 因果时空语义的抽象建模方法, 通过时间和空间变化的价值分布并结合强化学习过程中的状态价值函数, 动作
                 价值函数及迁移概率分布等, 形成因果时空语义模型. 通过构建时空价值矩阵, 对状态进行双阶段语义抽象, 从
                 而构建深度强化学习过程的抽象            MDP  模型, 解决现有抽象方法难以同时保留时间语义信息, 空间语义信息和
                 概率语义信息的问题. 此外, 结合优化技术对抽象               MDP  模型进行调优, 减少抽象状态与具体状态之间的语义误
                 差. 结合车道保持辅助系统、自适应巡航系统、交叉路口会车等案例进行实验分析, 并使用                                PRISM  对模型进
                 行验证评估, 结果表明本文所提出的抽象建模技术在模型简洁性、准确性等方面具有较好的性能优势, 同时能
                 够保证抽象     MDP  与真实  MDP  之间的语义等价性. 但是, 由于真实驾驶环境复杂多变, 仿真与真实系统之间的
                 差异难以避免, 本文所提方法在实际的极端复杂环境中, 仍然具有一定的局限性, 其处理高维时空数据的效率
                 需要进一步进行实验验证.
                    未来的工作将继续探索基于因果时空语义构建的抽象模型在深度强化学习中的具体应用, 旨在提高基于强化
                 学习的决策生成方法的效率和安全性. 本文所提出的抽象建模方法本质上对强化学习训练过程中, 其交互的环境
                 进行了抽象建模. 由于物理世界的采样代价和危险性远高于仿真环境, 下一阶段, 我们将进一步验证实际环境中的
                 抽象效果, 并充分考虑实际运行环境中的高维度和噪音问题, 引入更加细化的语义分层机制并尝试更加鲁棒的误
                 差控制算法, 以探索基于因果时空语义抽象的强化学习在实际                    ICPS  领域中的应用.
   224   225   226   227   228   229   230   231   232   233   234