Page 454 - 《软件学报》2024年第4期

P. 454

2032 软件学报 2024 年第 35 卷第 4 期

信息; o 5 表示观察到退出了当前界面.
T(s,a, s ) : 机器动作直接影响系统状态的变化, 反映了当前动作对用户最终意图的期望; 构造的
′
状态转移概率
完整的状态转移矩阵如表 2 所示.
′ s 后得到相关观测的概率, 完整的观
′
观测转移概率 O(s ,a,o) : 观测转移概率反映了执行动作 a 后转移到状态
测转移概率矩阵如表 3 所示.
表 2 状态转移概率矩阵表 3 观测转移概率矩阵

最终状态最终状态
初始状态动作初始状态动作
s 0 s 1 s 2 o 0 o 1 o 2 o 3 o 4 o 5
s 0 0.2 0.4 0.4 s 0 0.1 0.3 0.2 0.4 0 0
s 1 a 0 0.2 0.4 0.4 s 1 a 0 0.2 0.2 0 0.2 0.4 0
s 2 0.4 0.1 0.5 s 2 0.2 0.3 0 0 0 0.5
s 0 0.4 0.3 0.3 s 0 0.4 0 0 0.4 0.2 0
s 1 a 1 0.3 0.4 0.3 s 1 a 1 0.1 0.1 0.1 0.2 0.4 0.1
s 2 0.2 0.4 0.4 s 2 0.1 0.1 0.05 0.3 0.05 0.4
s 0 0.85 0.1 0.05 s 0 0 0.1 0.3 0.4 0.1 0.1
s 1 a 2 0.85 0.1 0.05 s 1 a 2 0.1 0.1 0.3 0.1 0.3 0.1
s 2 0.9 0.05 0.05 s 2 0.2 0.1 0.2 0.1 0.1 0.3
s 0 0.8 0.15 0.05 s 0 0 0.3 0.3 0.3 0.05 0.05
s 1 a 3 0.45 0.45 0.1 s 1 a 3 0 0.2 0.2 0.2 0.4 0
s 2 0.8 0.15 0.05 s 2 0.1 0.1 0.4 0 0 0.4

回报 R(s,a) : 如在当前状态 s 下采取动作 a 后得到了期望结果, 则回报值+10; 否则, 根据差异程度给予 1、
−10 和−1 的回报值, 具体的回报函数值参见表 4.

表 4 回报函数值矩阵

动作
状态
a 0 a 1 a 2 a 3
s 0 −10 −1 10 1
s 1 1 1 −10 −1
s 2 10 1 −10 −1

R 平台已经实现了 grid、enum、twopass、witness、incprune、sarsop 等多种 POMDP 求解算法, 该示例直
接使用 pomdp 包中的相应函数进行求解. 将上述的状态空间 S、动作空间 A、观测空间 Ω、状态转移概率矩
阵 T、观测转移概率矩阵 O、回报函数 R、折扣因子 γ、初始置信状态概率 b 0 = P(s 0 ) = (1/3,1/3,1/3) 等数据
以指定的格式代入 R 平台 pomdp 包中的 POMDP 函数, 构建问题模型, 然后利用 solve_POMDP 函数进行模型
求解.
采用默认的 grid (一种 PBVI 实现算法) 求解方法和 7 位精度进行计算, 结果表明我们构造的模型能够收敛,
总的期望回报为 18.949 661, 信念迭代次数为 10 017, 并得到了 α 向量矩阵和最优策略. 利用内置的函数 plot_policy_
graph, 得到了如图 8 所示的策略图. 图中共有 7 个节点, 每个节点代表一个置信状态, 代理从图中标记有“initial
belief”节点 6 开始, 初始时刻 3 种置信具有同等概率, 基于回报函数矩阵等数据得到最优策略是执行动作 a 3 ;
节点之间的圆弧代表观测, 根据当前观测可以转到置信状态 5 或状态 7; 继续执行类似操作, 直到再次回到状
态 6, 问题被重置. 策略图不仅能够描述施加动作后观测特征之间的转移, 还能描述信念状态之间的转换; 图中
a 1 , 这与模型中状态转移矩阵、观测转移矩阵和回报函数矩阵的具体数据有关, 它是当前数据
没有机器动作
的一种最优解.
从该原语交互意图提取示例可以看出, 本文提出的基于 POMDP 的增量式意图求解方法可以解决多义性指-

449 450 451 452 453 454 455 456 457 458 459