Page 454 - 《软件学报》2024年第4期
P. 454

2032                                                       软件学报  2024  年第  35  卷第  4  期



                 信息;   o 5  表示观察到退出了当前界面.
                               T(s,a, s ) : 机器动作直接影响系统状态的变化, 反映了当前动作对用户最终意图的期望; 构造的
                                     ′
                    状态转移概率
                 完整的状态转移矩阵如表         2  所示.
                                  ′                                         s  后得到相关观测的概率, 完整的观
                                                                             ′
                    观测转移概率      O(s ,a,o) : 观测转移概率反映了执行动作       a 后转移到状态
                 测转移概率矩阵如表       3  所示.
                            表 2    状态转移概率矩阵                              表 3    观测转移概率矩阵

                                            最终状态                                      最终状态
                  初始状态       动作                               初始状态 动作
                                      s 0     s 1     s 2                   o 0  o 1  o 2  o 3  o 4  o 5
                        s 0           0.2     0.4     0.4           s 0     0.1  0.3  0.2  0.4  0    0
                        s 1     a 0   0.2     0.4     0.4           s 1    a 0  0.2  0.2  0  0.2  0.4  0
                        s 2           0.4     0.1     0.5           s 2     0.2  0.3  0    0    0   0.5
                        s 0           0.4     0.3     0.3           s 0     0.4  0    0   0.4  0.2   0
                        s 1     a 1   0.3     0.4     0.3           s 1    a 1  0.1  0.1  0.1  0.2  0.4  0.1
                        s 2           0.2     0.4     0.4           s 2     0.1  0.1  0.05  0.3  0.05  0.4
                        s 0          0.85     0.1    0.05           s 0     0   0.1  0.3  0.4  0.1  0.1
                        s 1     a 2  0.85     0.1    0.05           s 1    a 2  0.1  0.1  0.3  0.1  0.3  0.1
                        s 2           0.9    0.05    0.05           s 2     0.2  0.1  0.2  0.1  0.1  0.3
                        s 0           0.8    0.15    0.05           s 0     0   0.3  0.3  0.3  0.05  0.05
                        s 1     a 3  0.45    0.45     0.1           s 1    a 3  0  0.2  0.2  0.2  0.4  0
                        s 2           0.8    0.15    0.05           s 2     0.1  0.1  0.4  0    0   0.4

                    回报  R(s,a)  : 如在当前状态  s 下采取动作    a  后得到了期望结果, 则回报值+10; 否则, 根据差异程度给予               1、
                 −10  和−1  的回报值, 具体的回报函数值参见表         4.

                                                    表 4    回报函数值矩阵

                                                                  动作
                               状态
                                                 a 0          a 1           a 2            a 3
                                   s 0        −10           −1            10            1
                                   s 1         1             1            −10           −1
                                   s 2        10             1            −10           −1

                    R  平台已经实现了      grid、enum、twopass、witness、incprune、sarsop  等多种  POMDP  求解算法, 该示例直
                 接使用   pomdp  包中的相应函数进行求解. 将上述的状态空间               S、动作空间     A、观测空间     Ω、状态转移概率矩
                 阵  T、观测转移概率矩阵        O、回报函数     R、折扣因子     γ、初始置信状态概率         b 0 = P(s 0 ) = (1/3,1/3,1/3) 等数据
                 以指定的格式代入       R  平台  pomdp  包中的  POMDP  函数, 构建问题模型, 然后利用       solve_POMDP  函数进行模型
                 求解.
                    采用默认的     grid (一种  PBVI 实现算法) 求解方法和     7 位精度进行计算, 结果表明我们构造的模型能够收敛,
                 总的期望回报为      18.949 661, 信念迭代次数为  10 017, 并得到了  α 向量矩阵和最优策略. 利用内置的函数           plot_policy_
                 graph, 得到了如图  8  所示的策略图. 图中共有       7  个节点, 每个节点代表一个置信状态, 代理从图中标记有“initial
                 belief”节点 6 开始, 初始时刻    3  种置信具有同等概率, 基于回报函数矩阵等数据得到最优策略是执行动作                         a 3 ;
                 节点之间的圆弧代表观测, 根据当前观测可以转到置信状态                     5  或状态  7; 继续执行类似操作, 直到再次回到状
                 态 6, 问题被重置. 策略图不仅能够描述施加动作后观测特征之间的转移, 还能描述信念状态之间的转换; 图中
                            a 1  , 这与模型中状态转移矩阵、观测转移矩阵和回报函数矩阵的具体数据有关, 它是当前数据
                 没有机器动作
                 的一种最优解.
                    从该原语交互意图提取示例可以看出, 本文提出的基于                   POMDP  的增量式意图求解方法可以解决多义性指-
   449   450   451   452   453   454   455   456   457   458   459