Page 222 - 《软件学报》2025年第8期
P. 222

田丽丽 等: 因果时空语义驱动的深度强化学习抽象建模方法                                                    3645



                 输出: 区间化的抽象空间       ˆ S I .

                 1.   ˆ S I ← ∅ //初始化抽象过程
                 2. while !refined do
                 3.  for each   j ∈ {1,..., J} do
                 4.    d j ← s 根据  Θ j , d MAX , d MIN , n MIN  进行区间化划分
                 5.  end for
                 6.   D ← d 1 ,...,d J  //形成区间化特征集合
                 7.    ˆ S I ← 将  D  映射为状态
                 8.   e mean ,e max ← 计算   ˆ S I  与  S  之间误差
                             (
                 9.   r cur ← 根据 ˆ S I ,S ) 计算特征压缩率
                 10.  if  e mean > e MEAN  or  e max > e MAX  or  r cur > r d  then
                           d MAX , d MIN , n MIN  //如有必要, 更新区间参数
                 11.   更新
                 12.  else
                 13.   refined  ← True //如果条件满足, 则结束细化
                 14.  end if
                 15. end while
                 16. 返回   ˆ S I  //返回区间化的抽象空间
                    基于因果语义的特征区间化抽象不仅减少了                ICPS  中庞大的状态空间, 也为描述系统状态提供了一种人类可
                 理解的方式, 使得设计人员在面对传感器收集的海量数据时, 依然能够直观地理解系统的特性和控制器的行为. 即
                 便在预定义的误差参数        e MEAN  设定为接近零的极端情况下, 算法       1  也能保证收敛, 即在最不利的情况下返回原始数
                 据构建的   MDP. 通过特征区间化抽象, 具有相近语义值的具体状态被有效地映射至相同的区间化抽象状态, 为基
                 于时空语义度量的进一步抽象提供了基础.

                                       (ε,d) -抽象
                 4.1.2    基于因果语义的时空
                    上述基于因果语义的特征区间化抽象缩减了状态空间, 但是其简化程度仍然受到抽象粒度的影响. 为此, 我们
                                          (ε,d) -抽象, 实现更加灵活和精确的模型抽象.
                 进一步提出基于因果语义的时空
                    定义  5. 时空语义. 对于任意具体状态         s ∈ S , 时空语义  θ = Θ{V( s),Q(s,a),R(s,a),P(s, s ),...}, 其中  θ ∈ R . 这里
                                                                                                   n
                                                                                      ′
                                                s
                 的   θ 表示通过映射函数    Θ : S → θ 从状态   提取出的语义值, 包括了状态的多维特征, 例如状态价值函数                 V (s)、动
                 作价值函数    Q(s,a)、奖励函数   R(s,a) 和迁移概率函数    P(s, s') 等.
                                    Θ 用于捕获状态固有属性, 并将所处状态转化为语义空间中的坐标. 时空语义极大地丰富
                    其中, 语义映射函数
                 了对状态演变过程的认知, 提供了一个从时间和空间特征捕捉状态动态变化的分析框架. 通过这一框架, 能够更加
                                                                        (ε, d) -抽象方法  [21] 实现对经过因果语义区
                 宏观地评估不同状态之间的等价性, 实现高效抽象. 除此之外, 我们采用
                 间化后的状态进一步抽象.
                    定义  6.  (ε, d) -抽象.  (ε, d) -抽象定义为一个映射: Φ ε,d : S → ˆ S , 该映射需要满足下列条件:

                                                                     −1
                                                d(s 1 ,s 2 ) ⩽ ε, ∀ˆs ∈ ˆ S , s 1 ,s 2 ∈ Φ (ˆs)       (8)
                                                                     ε,d
                                                                                  ˆ S
                 其中,  Φ : S → ˆ S  表示为抽象映射函数, 将原始状态空间       S  映射为一个抽象状态空间  . 映射函数          Φ 可以将一个真
                                                                  −1
                 实马尔可夫模型转化为抽象模型. 令           Pow(S ) 表示为  S  的幂集,  Φ : ˆ S → Pow(S ) 表示函数的逆映射. 状态抽象的核
                                                                     d 表示状态度量矩阵,      ε 表示抽象阈值.
                 心是测量状态之间的相似性, 并根据状态相似度进行近邻抽象. 其中
                    根据马尔可夫决策过程中的状态价值函数和动作价值函数可知, 如果两个状态的迁移模型和奖励相似, 那么
                 两个状态下的期望累积奖励也是相似的. 这为状态抽象提供了一种简化方法, 即奖励函数和迁移概率可组成该状
                 态的时空价值矩阵, 从而在基于时空价值语义抽象的过程中, 尽可能地保持抽象马尔可夫决策过程的最优值函数,
   217   218   219   220   221   222   223   224   225   226   227