Page 215 - 《软件学报》2025年第8期
P. 215

3638                                                       软件学报  2025  年第  36  卷第  8  期


                 application  in  ICPS  control  components  due  to  its  effectiveness  in  managing  complex  and  dynamic  environments.  However,  the  openness
                 of  the  operating  environment  and  the  inherent  complexity  of  ICPS  necessitate  the  exploration  of  highly  dynamic  state  spaces  during  the
                 learning  process.  This  often  results  in  inefficiencies  and  poor  generalization  in  decision-making.  A  common  approach  to  address  these
                 issues  is  to  abstract  large-scale,  fine-grained  Markov  decision  processes  (MDPs)  into  smaller-scale,  coarse-grained  MDPs,  thus  reducing
                 computational  complexity  and  enhancing  solution  efficiency.  Nonetheless,  existing  methods  fail  to  adequately  ensure  consistency  between
                 the  spatiotemporal  semantics  of  the  original  states,  the  abstracted  system  space,  and  the  real  system  space.  To  address  these  challenges,
                 this  study  proposes  a  causal  spatiotemporal  semantic-driven  abstraction  modeling  method  for  deep  reinforcement  learning.  First,  causal
                 spatiotemporal  semantics  are  introduced  to  capture  the  distribution  of  value  changes  across  time  and  space.  Based  on  these  semantics,  a
                 two-stage  semantic  abstraction  process  is  applied  to  the  states,  constructing  an  abstract  MDP  model  for  the  deep  reinforcement  learning
                 process.  Subsequently,  abstraction  optimization  techniques  are  employed  to  fine-tune  the  abstract  model,  minimizing  semantic  discrepancies
                 between the abstract states and their corresponding detailed states. Finally, extensive experiments are conducted on scenarios including lane-
                 keeping,  adaptive  cruise  control,  and  intersection  crossing.  The  proposed  model  is  evaluated  and  analyzed  using  the  PRISM  verifier.  The
                 results indicate that the proposed abstraction modeling technique demonstrates superior performance in abstraction expressiveness, accuracy,
                 and semantic equivalence.
                 Key words:  deep  reinforcement  learning  (DRL);  abstraction  modeling;  causal  spatiotemporal  semantics;  intelligent  cyber-physical  system
                         (ICPS); Markov decision process (MDP)

                 1   引 言

                                                         [1]
                    信息物理融合系统       (cyber-physical system, CPS) 是集计算、通信和物理环境的复杂系统, 具有混成性、复杂
                 性和实时性等特性, 通常运行在开放、不确定性环境中, 例如自动驾驶、智慧医疗、智慧城市、智能交通等环境.
                 CPS  系统的控制部件是系统的核心, 需要根据感知环境得到的信息进行智能控制, 常见的控制器包括模型预测控
                 制  (model predictive control, MPC)、比例积分微分  (proportional-integral-derivative, PID) 控制、线性二次调节器
                 (linear quadratic regulator, LQR) 等. 以自动驾驶的自适应巡航控制系统   (adaptive cruise control, ACC) 为例, 模型预
                 测控制器接收智能体与前车的相对距离、用户设置的巡航速度、自车速度和与前车的相对速度等输入信息, 然后
                 将加速度等控制信号传递给自车执行器, 执行相应的动作. 传统的                    MPC  控制器通过预测有限时间内两车的运动,
                 每个时间步都生成控制命令, 以在保持与前车安全距离的同时, 实现用户设置的巡航速度跟踪目标.
                    近年来, 机器学习技术在        CPS  系统中得到了广泛应用. 例如, 在自动驾驶领域, 感知部件可以借助卷积神经网
                 络  (convolutional neural network, CNN) 网络来识别路牌、行人、障碍物等; 决策部件采用强化学习等技术实现智
                 能决策. 此类融合智能组件来实现系统功能运作的系统称为智能                      CPS (intelligent CPS, ICPS) . 深度强化学习
                                                                                           [1]
                                            [2]
                 (deep reinforcement learning, DRL) 结合了深度学习的近似能力与强化学习的决策能力, 能够处理高维、连续、
                 复杂的状态和动作空间问题. 它不仅能够基于原始输入数据自动提取有意义的特征, 而且可以在无监督的情况下
                 通过与环境的交互, 学习到策略模型. DRL           已经被广泛用于非线性、随机和高度不确定性的系统, 为其提供控制
                 优化策略. 虽然深度强化学习在          ICPS  中取得了显著的成就, 但它仍面临一系列问题, 如规模性问题                [3] , 即智能体在
                 每个时间步接收环境的状态信息并进行一次决策, 需要智能体需要在细粒度的状态空间和决策时间内进行操作,
                 从而引发了强化学习任务的规模性问题. 具体而言, 大规模的状态空间导致了状态空间探索效率低以及奖励稀疏                                   [4]
                 等问题. 其次, 长期决策的过程导致了轨迹空间规模庞大, 使强化学习的目标函数难以优化                           [5] , 进而导致学习效率
                 低、泛化能力弱以及算法稳定性差等问题.
                    解决强化学习的规模性问题的一种有效方法是使用抽象建模技术将大规模、细粒度的马尔可夫决策过程抽
                 象为小规模粗粒度的马尔可夫决策过程              [6] , 从而将大规模复杂的决策任务抽象为小规模简单的决策任务, 减小状
                 态空间以及轨迹空间的规模. 现有的强化学习的抽象技术主要分为                      3  类: 状态抽象、动作抽象和状态-动作联合抽
                 象. 状态抽象是空间尺度上的抽象, 即利用状态抽象函数将大规模状态空间抽象为小规模的状态空间                                [7] . 动作抽象
                 是时间尺度上的抽象, 即利用抽象动作策略将每单步决策的智能体决策过程抽象为每多步决策的智能体决策过
                 程  [8] . 状态-动作联合抽象是同时在状态空间尺度和动作时间尺度上做联合抽象, 旨在解决强化学习的规模性问题                             [9] .
   210   211   212   213   214   215   216   217   218   219   220