Page 227 - 《软件学报》2025年第8期

P. 227

3650 软件学报 2025 年第 36 卷第 8 期

5.2 研究问题

为了全面评估基于因果时空语义抽象模型方法的有效性, 我们对以下两个问题进行了研究.
● 研究问题 1 (RQ1): 基于因果时空语义的抽象建模方法可否能够实现简洁性与准确性的有效平衡?
在复杂 ICPS 场景中, 尤其是状态和动作空间庞大的场景下, 构建简洁又准确的抽象 MDP 至关重要. 抽象
MDP 能够有效降低问题复杂性并提供决策依据. 然而, 抽象 MDP 往往伴随着一定程度的信息损失, 从而影响模型
的准确性和决策质量. 因此, RQ1 旨在探讨基于时空价值语义构建的抽象 MDP 模型在简化环境表示与保持决策
准确性之间寻求最佳平衡点的能力. 具体地, 本文将评估基于时空价值语义的抽象方法在简化 ICPS 环境复杂性的
同时, 对决策过程的影响程度以及可能导致的准确性变化.
● 研究问题 2 (RQ2): 基于因果时空语义的抽象 MDP 模型在决策性能上是否能接近或达到真实 MDP 的效
果? 此外, 抽象 MDP 与实际模型之间能否实现语义上的等价?
在实践中, 真实 MDP 模型会因状态空间庞大和系统结构复杂等限制, 影响模型的应用范围和效率. 因此, 如
果抽象 MDP 模型能在保持与真实 MDP 语义等价性的前提下, 展现出与真实 MDP 相似乃至更优的决策性能, 则
这种抽象 MDP 的实用价值和应用范围将大大提升. 因此, 研究抽象 MDP 模型是否能够达到与真实环境模型相似
的决策性能, 并探讨两者之间的语义等价性, 对于评估抽象 MDP 模型的有效性和实用性具有重要意义.

5.3 实验设置
本节详细描述了实验案例的各项实验设置、实验数据收集参数和抽象模型构建参数.
在数据收集阶段, 使用基于随机网络蒸馏 (random network distillation, RND) [31] 探索的好奇心驱动强化学习方
法生成 LKA、ACC 及 ICA 控制策略, 并对案例环境进行充分探索以收集系统数据. 具体而言, 在每个场景, 使用
基于好奇心驱动的强化学习控制器仿真 1 000 次, 从中收集经验. 然后, 将收集到的经验以 8:2 的比例划分为建模
集和验证集. 前者用于构建抽象模型, 后者用于分析抽象模型和具体模型之间的语义误差. 针对 3 个案例中涉及的
深度学习网络的超参数设定如表 1 所示, 系统的 actor 学习率和 critic 学习率分别为 1.0×10 、 1.0×10 , 折扣因子 γ
−3
−4
设定为 0.95, 策略延迟更新步长设定为 2. 此外, LKA 和 ACC 的好奇心网络损失比例为 2, ICA 的好奇心网络损失
比例为 0.1. LKA 奖励设定为 reward = 1−y −θ yaw −outOfLane cost ; ACC 奖励设定为 reward = 0.05×v x −collision cost −
2
2
outOfLane cost ; ICA 奖励设定为 reward =speed reward +arrived reward −collision cost . 当智能体的速度在设定范围内且在规
定时间内抵达目的地时, 会给予奖励. 当智能体偏离车道中心线、与车道方向的夹角变大或发生碰撞时, 则会进行
惩罚.

表 1 强化学习超参数

系统 actor学习率 critic学习率 γ折扣因子延迟更新步长好奇心网络损失比例
LKA 1.0×10 −4 1.0×10 −3 0.95 2 2
ACC 1.0×10 −4 1.0×10 −3 0.95 2 2
ICA 1.0×10 −4 1.0×10 −3 0.95 2 0.1

抽象过程的超参数, d j 从 0.01 更新到 0.1, 步长为 0.001; d j 从 0.1 更新到 0.005, 步长为 0.005; n j 从
MIN MAX MIN
0.1% 更新到 10% 的值集合, 步长为 0.1%. 自动更新过程按照步长进行迭代, 从中选择一组最佳阈值, 更新过程中
需要保证 d MIN ⩽ d MAX . 期望误差阈值 e pred 设置为 0.05. 平均语义误差 e MEAN 设置为 0.005, 为整个语义值域范围的 0.25%,
e MAX 设置为 0.2, 为语义值域范围的 10%. 优化阈值设定为 0.5%, d p 度量概率密度的函数, 较为常见
语义最大误差
是的是康托洛维奇度量 (Kantorovich metric) 和总变异度量 (total variation metric) [32] , 本文为了简化分析, 选择总变
异度量衡量概率分布之间的距离.

5.4 实验结果与分析
● RQ1: 在简洁性和准确性方面, 基于时空价值语义的抽象效果如何?
为了回答 RQ1, 从压缩率 (compression ratio, CR) 和平均绝对误差 (mean absolute error, MAE) 对抽象模型进行

222 223 224 225 226 227 228 229 230 231 232