Page 216 - 《软件学报》2025年第8期

P. 216

田丽丽等: 因果时空语义驱动的深度强化学习抽象建模方法 3639

一个有效的抽象需要在降低复杂性的同时, 尽可能保证抽象后的最优性与原问题保持一致 [10] . 然而, 将抽象建模
技术应用于强化学习的工作虽然已经取得了初步的研究成果, 但是在保留原问题最优性上仍面临挑战, 特别是空
间语义、时间语义以及概率语义信息未能被完整保留. 这种信息丢失可能导致最优策略的丢失、泛化能力减弱和
策略鲁棒性降低等风险, 例如自动驾驶车辆在城市道路行驶面临多种复杂的交通状况 (行人穿越马路、车辆并线
等), 抽象建模中通常将城市道路简化为网格状的空间表示, 若空间语义丢失, 即车辆位置被粗略的表示为某个网
格中的点, 而不是精确的位置, 导致车辆在复杂交通中需要切换车道时, 丢失空间语义信息的抽象模型无法准确判
断何时应该并线以避免与其他车辆相撞, 导致车辆采取次优的驾驶策略, 甚至引发交通事故. 因此, 亟需探索新的
抽象技术来应对这一挑战, 使抽象后的强化学习过程最大化地适用于 ICPS 控制器的决策生成, 并确保系统的安全性.
针对上述问题, 本文基于因果关系推理理论提出了一种基于因果时空语义对状态空间进行分层抽象的方法.
首先, 因果时空语义兼顾状态的时间信息、空间信息和概率信息, 从状态的本质出发, 对具体状态语义的每个维度
进行了第 1 阶段的抽象, 将复杂的状态空间进行分解和简化, 以便于对状态空间进行有效的分析和理解. 其次, 提
出度量时间和空间变化的价值分布的时空价值矩阵, 并基于时空价值矩阵进行聚类抽象, 实现模型的第 2 阶段抽
[5]
象. 该方法提高了模型抽象的程度, 使得抽象后的 MDP 模型更加精简. 此外, 由于状态和动作是密切相关的, 本
文提出在第 2 阶段抽象过程中需要兼顾动作抽象, 以实现状态-动作联合抽象, 达到最优的抽象效果. 最后, 结合
ICPS 的典型案例进行了车道保持、自适应巡航、交叉路口会车等多组对比实验分析, 实验结果表明基于因果时
空语义的双层抽象方法具有较好的准确性和简洁性.
本文第 1 节介绍问题提出的背景和重要意义. 第 2 节介绍本文所需的背景知识, 包括智能信息物理融合系统、
基于强化学习的控制生成、MDP 以及抽象 MDP. 第 3 节介绍抽象建模方法的研究现状和存在的问题. 第 4 节介
绍如何基于因果时空语义构建抽象模型. 第 5 节通过 3 个案例对本文的方法进行实验, 并对实验结果进行分析. 最
后一节总结全文.

2 背景知识

本节将详细介绍 ICPS、基于深度强化学习的控制器和抽象技术的相关概念及基本知识.

2.1 智能信息物理融合系统控制器 (ICPS)
智能信息物理融合系统控制器 (ICPS) 是在信息物理融合系统中融入人工智能技术, 帮助实现智能感知、智
能决策. 如后文图 1 所示, ICPS 主要由以下 4 个部分构成: 基于机器学习的控制器、执行器、物理环境以及传感
器. 在 ICPS 中, 传感器和控制器分别负责感知和决策. 传感器在 ICPS 中扮演着感知器官的角色, 负责采样物理世
界的连续状态, 并将其转换为离散的信号, 在每个时间步 t 后输出新的系统状态 s t+1 . 控制器则利用传感器接收到
的系统状态 s t 及外部输入信号 , 根据所学策略输出控制信号 , 以引导执行器的行动, 从而实现 ICPS 的控制功
i t
c t
c t 调整智能体在实际物理环境中的行为, 使系统达到预期状态. 实际物理环境是 ICPS 中
能. 执行器根据控制命令
的关键组成部分, 通过 ICPS 的非线性连续动力学模型 M env , 可以计算当前系统状态 s t 和执行器的输出 , 从而得
c t
到下一个系统状态 s t+1 .

2.2 基于深度强化学习的控制生成
深度强化学习将强化学习 (reinforcement learning, RL) 与深度学习 (deep learning) 相结合, 用于训练智能体在
复杂环境中进行决策. 具体而言, 深度强化学习通过深度神经网络 (deep neural network, DNN) 来解决复杂的非线
性问题, 使智能体具有处理高维数据的能力, 从而使 ICPS 能够在复杂环境中实现自主决策功能. 如图 2 所示, 在深
度强化学习的框架中, 智能体通过与环境交互来学习最优策略. 每个时间步骤中, 智能体接收传感器获取的环境状
态数据 s t , 并使用 DNN 对这些数据进行处理和评估, 随后输出当前环境下的最优动作 a t . 智能体的决策受到探索
策略 (如 ϵ-贪婪策略) 的影响, 该策略用于对未知环境的探索与对已知信息的利用. 在执行动作后, 智能体会根据
r t , 以衡量决策的效果. 智能体通过这些奖励来调整决策过程, 优化未来的策略, 以获得更
环境反馈获得奖励信号
高的累积奖励. 通过这种方式, 深度强化学习能够有效地提升智能体的决策能力, 从而实现长期目标.

211 212 213 214 215 216 217 218 219 220 221