Page 220 - 《软件学报》2025年第8期
P. 220

田丽丽 等: 因果时空语义驱动的深度强化学习抽象建模方法                                                    3643


                 4.1   基于因果时空语义的状态抽象
                    在构建抽象模型时, 模型需要在简洁性与准确性之间找到一个恰当的平衡点. 简洁性要求有效控制状态数量,
                 而准确性则要求减少抽象状态与具体状态之间的误差. 因此, 抽象建模方法既要保证模型简洁易用, 又要确保其高
                 度实用和准确, 使得通过语义抽象得到的模型能够真实地反映系统的实际情况. 本文提出了基于因果时空语义构
                 建抽象模型, 以确保所得到的模型既简洁又准确. 因果时空语义包括状态特征间的因果语义和状态之间的时空语
                 义, 为系统行为提供了一个全面的多维度理解和表征方法. 通过因果关系映射, 本文将复杂的高维状态空间抽象到
                 更加抽象的状态空间表示, 并通过对状态之间时空关系进度量来缩减庞大的状态空间. 该方法能够准确反映出系
                 统需满足的规约性质, 并展示不同需求下的系统行为特征, 不仅能够更有效地捕捉系统决策核心含义, 还提高了基
                 于抽象模型进行决策生成的效率.

                 4.1.1    基于因果语义的特征区间化抽象
                    在  ICPS  中, 传感器数据的高维复杂性给决策带来了挑战. 由于实际应用于决策的传感器数据相对稀缺, 因此
                 需要对这些数据进行有效地处理. 单独一个特征并不能提供足够的信息支持决策过程, 而不同维度的组合可能会
                 为决策带来更加丰富和全面的场景理解. 此外, 在处理传感器数据时还需要考虑到不同类型、不同精度、甚至是
                 不同时间尺度下数据之间可能存在着潜在联系与影响. 因此, 发现特征间的关系并进行组合以实现状态维度压缩
                 变得至关重要. 本文结合自动驾驶的数据集, 应用现有的因果发现算法, 例如, PC (Peter-Clark algorithm) 算法                 [24]
                 和  FCI (fast causal inference) 算法  [25]  构建因果图. 借助因果图识别出不同状态特征之间的因果关系, 并根据这些关
                 系设计特征抽象映射函数, 将原始的高维度的状态空间映射到一个更加简洁、更易于处理的抽象状态空间.
                    定义  3. 基于因果发现的因果关系获取. 因果推理任务可以获取所有被观测变量间的因果关系                           [23]  , 输入为观测
                                                                                               V  是节点集
                 到的变量, 输出为一种能够表示因果关系的因果图                 G, 其表示形式为一个有向无环图          G = (V,E), 其中
                 合, 由原始数据中观察到的变量组成,           E  为边的集合, 其中, 边表示因果关系, 并且图中没有有向环, 即不存在从一
                 个节点出发经过有向边回到自身的路径.
                    在本文中, 一个被观测的变量就是           MDP  中的一个状态     s i ∈ S . 在一些假设下, 给定一个数据集     D, 称还原真实
                 因果图  G  的任务为因果发现. 真实因果图         G  要求满足一致性和可识别性假设. 一致性指通过因果图导出的概率分
                                 D 中的一致. 可识别性指因果图中的所有边的方向都被确定. 为了满足一致性, 因果发现算法
                 布中蕴含的独立性与
                 引入因果忠实性假设, 该假设要求因果图导出的概率分布的独立性能够蕴含因果图本身所表达的独立性, 这使得
                 这些算法能够重点关注图空间上的非参数性质.
                    本文使用的因果发现算法为满足因果忠实性和因果无环性假设的                        PC  算法  [24]  和  FCI 算法  [25] . 该研究中, 我们
                 首先使用    PC  和  FCI 算法对观测数据进行初步的因果关系挖掘, 以应对数据间复杂的线性和非线性关系, 并排除
                 观测特征中非因果关系的观测特征, 在此基础上, 使用互信息方法对初步挖掘到的因果关系进行确定                              [26,27]  , 最后得到
                 的结果即为我们想要的因果关系. 该方法的输入为观测数据也即                     ICPS  数据集特征变量    s = (d 1 ,d 2 ,d 3 ,...,d n ), s 为真

                 实状态且具有     n 个特征, 输出为不同特征状态之间的因果关系, 以              ICPS  数据集为输入得到的因果图为          G = (s,E),
                 s 为状态集合,   E  为状态集合之间的因果关系.
                    定义  4. 基于因果语义的特征抽象. 设         s = (d 1 ,d 2 ,d 3 ,...,d n ) 表示真实状态,   具有  n 个特征.  Θ 表示语义映射函
                                                                             s
                                                                               θ ¯s = (θ 1 ,...,θ j )  表示经过基于语
                 数,  θ = Θ(d i ,...,d k ) 表示存在因果关系的  d i ,...,d k  特征经过  Θ 映射的具体语义值  .
                 义的特征抽象后的抽象状态.
                    如图  4  所示, 我们对基于因果语义的特征区间化抽象进行举例说明, 以自适应巡航控制为例, 其目标是追寻前
                 车并保持安全距离. 自动驾驶车辆状态            s 用多维向量    (v,acc, x,y,...) 表示, 分别表示车辆速度  v、加速度  acc 及空间
                     (x,y) 等. 通过对因果关系进行挖掘并因果图进行分析, 可以实现基于因果语义的抽象. 基于因果语义的抽象
                 坐标
                 将具体状态     s = (v,acc, x,y,...)  简化为表示  d = (rel velocity ,rel angle ,rel distance ,...), 其中  rel velocity 、 rel angle 、 rel distance  分别代
                 表相对速度、相对角度和相对距离. 通过基于因果发现的因果关系获取步骤, 我们得知角度和速度之间不存在因
                 果关系, 故无需特征映射. 基于因果关系筛选的特征抽象方法保留了                     ICPS  所需的关键信息, 有效地减少了状态空
                 间的复杂性, 并为后续决策和控制提供更高效且可解释性更强的状态表示.
   215   216   217   218   219   220   221   222   223   224   225