Page 215 - 《软件学报》2025年第8期
P. 215
3638 软件学报 2025 年第 36 卷第 8 期
application in ICPS control components due to its effectiveness in managing complex and dynamic environments. However, the openness
of the operating environment and the inherent complexity of ICPS necessitate the exploration of highly dynamic state spaces during the
learning process. This often results in inefficiencies and poor generalization in decision-making. A common approach to address these
issues is to abstract large-scale, fine-grained Markov decision processes (MDPs) into smaller-scale, coarse-grained MDPs, thus reducing
computational complexity and enhancing solution efficiency. Nonetheless, existing methods fail to adequately ensure consistency between
the spatiotemporal semantics of the original states, the abstracted system space, and the real system space. To address these challenges,
this study proposes a causal spatiotemporal semantic-driven abstraction modeling method for deep reinforcement learning. First, causal
spatiotemporal semantics are introduced to capture the distribution of value changes across time and space. Based on these semantics, a
two-stage semantic abstraction process is applied to the states, constructing an abstract MDP model for the deep reinforcement learning
process. Subsequently, abstraction optimization techniques are employed to fine-tune the abstract model, minimizing semantic discrepancies
between the abstract states and their corresponding detailed states. Finally, extensive experiments are conducted on scenarios including lane-
keeping, adaptive cruise control, and intersection crossing. The proposed model is evaluated and analyzed using the PRISM verifier. The
results indicate that the proposed abstraction modeling technique demonstrates superior performance in abstraction expressiveness, accuracy,
and semantic equivalence.
Key words: deep reinforcement learning (DRL); abstraction modeling; causal spatiotemporal semantics; intelligent cyber-physical system
(ICPS); Markov decision process (MDP)
1 引 言
[1]
信息物理融合系统 (cyber-physical system, CPS) 是集计算、通信和物理环境的复杂系统, 具有混成性、复杂
性和实时性等特性, 通常运行在开放、不确定性环境中, 例如自动驾驶、智慧医疗、智慧城市、智能交通等环境.
CPS 系统的控制部件是系统的核心, 需要根据感知环境得到的信息进行智能控制, 常见的控制器包括模型预测控
制 (model predictive control, MPC)、比例积分微分 (proportional-integral-derivative, PID) 控制、线性二次调节器
(linear quadratic regulator, LQR) 等. 以自动驾驶的自适应巡航控制系统 (adaptive cruise control, ACC) 为例, 模型预
测控制器接收智能体与前车的相对距离、用户设置的巡航速度、自车速度和与前车的相对速度等输入信息, 然后
将加速度等控制信号传递给自车执行器, 执行相应的动作. 传统的 MPC 控制器通过预测有限时间内两车的运动,
每个时间步都生成控制命令, 以在保持与前车安全距离的同时, 实现用户设置的巡航速度跟踪目标.
近年来, 机器学习技术在 CPS 系统中得到了广泛应用. 例如, 在自动驾驶领域, 感知部件可以借助卷积神经网
络 (convolutional neural network, CNN) 网络来识别路牌、行人、障碍物等; 决策部件采用强化学习等技术实现智
能决策. 此类融合智能组件来实现系统功能运作的系统称为智能 CPS (intelligent CPS, ICPS) . 深度强化学习
[1]
[2]
(deep reinforcement learning, DRL) 结合了深度学习的近似能力与强化学习的决策能力, 能够处理高维、连续、
复杂的状态和动作空间问题. 它不仅能够基于原始输入数据自动提取有意义的特征, 而且可以在无监督的情况下
通过与环境的交互, 学习到策略模型. DRL 已经被广泛用于非线性、随机和高度不确定性的系统, 为其提供控制
优化策略. 虽然深度强化学习在 ICPS 中取得了显著的成就, 但它仍面临一系列问题, 如规模性问题 [3] , 即智能体在
每个时间步接收环境的状态信息并进行一次决策, 需要智能体需要在细粒度的状态空间和决策时间内进行操作,
从而引发了强化学习任务的规模性问题. 具体而言, 大规模的状态空间导致了状态空间探索效率低以及奖励稀疏 [4]
等问题. 其次, 长期决策的过程导致了轨迹空间规模庞大, 使强化学习的目标函数难以优化 [5] , 进而导致学习效率
低、泛化能力弱以及算法稳定性差等问题.
解决强化学习的规模性问题的一种有效方法是使用抽象建模技术将大规模、细粒度的马尔可夫决策过程抽
象为小规模粗粒度的马尔可夫决策过程 [6] , 从而将大规模复杂的决策任务抽象为小规模简单的决策任务, 减小状
态空间以及轨迹空间的规模. 现有的强化学习的抽象技术主要分为 3 类: 状态抽象、动作抽象和状态-动作联合抽
象. 状态抽象是空间尺度上的抽象, 即利用状态抽象函数将大规模状态空间抽象为小规模的状态空间 [7] . 动作抽象
是时间尺度上的抽象, 即利用抽象动作策略将每单步决策的智能体决策过程抽象为每多步决策的智能体决策过
程 [8] . 状态-动作联合抽象是同时在状态空间尺度和动作时间尺度上做联合抽象, 旨在解决强化学习的规模性问题 [9] .

