Page 453 - 《软件学报》2024年第4期

P. 453

仝青山等: 面向指-笔混合输入的交互原语和交互模型研究 2031

任务. 当前输入的具有多义性的交互原语, 可以从上下文中获取到更多的语义信息. 用户在本次交互之前输入的交
互原语序列或者历史交互记录蕴含着许多有价值的信息, 对这些潜在信息的挖掘和利用是解决指-笔混合输入意
图不确定性的关键, 而能够对部分可观测的时序数据建模的 POMDP 是解决这类问题的一种有效方法.
在用户利用指、笔持续输入的过程中, 我们得到的信息是不完整的, 利用部分信息提取到的用户意图具有很
高的不精确性, 但随着交互原语的持续输入系统可以获取到的有价值信息越来越多, 交互意图逐步由不确定性向
确定性转化. 因此, 利用 POMDP 进行意图推断的方法具有增量特征, 是一种增量式交互意图提取方法.
在人工智能领域, POMDP 描述了 Agent 在不确定性环境中的运行方式, 一般可以用一个 8 元组来定义, 即
[28] 表示状态空间, 是一组机器状态表示动作空间, 是机器可能执行的
< S,A,T,R,Ω,O,γ,b 0 > . 其中, S s 的集合; A
动作 a 的集合; T 表示系统的状态转移函数集合, T(s,a, s ) = P(s |a, s) , 表示在当前状态 s 下执行动作 a 转移到状
′
′
′
态 s 的概率; R 表示回报函数的集合, R(s,a) 表示在状态 s 下执行动作 a 所获得的即时收益; Ω 表示观测空间, 是
所有观测 o 的集合; O : S × A → Π(Ω) 表示观测函数的集合, 观测函数用 O(s ,a,o) = P(o|s ,a) 表示, 为执行动作 a
′
′
s 的情况下得到观测 o
′
并且转移到状态的概率; γ ∈ [0,1] 是折扣系数; b 0 表示初始信念状态.
在指-笔混合输入的系统中, 我们用 s t 表示系统 t 时刻的不可完全观测状态, 它隐含了 3 个方面的信息: 用户
a t 表示 t 时刻的机器动作, 它是用户的交互行为在系统
的最终意图、当前输入的交互原语、历史交互记录等; 用
o t 表示 t 时刻所能观测到的状态特征, 如系统中可视化构
中的映射, 表现为交互原语识别后所执行的交互任务; 用
件的选中状态、选中的数目、位置信息的变化等.
通过指-笔混合输入系统的建模, 可将交互原语意图提取问题转化为 POMDP 决策问题. POMDP 具有出色的
建模能力, 但其精确求解所带来的高计算复杂度使其难以应用; 近些年, 其近似求解方法取得了巨大进展并被广泛
使用, 如 PBVI [29] 、FBVI、Perseus、POMCP、DESPOT 等求解算法. 引入信念状态将 POMDP 转化为 Belief MDP
是使用最为广泛的一种求解方案, 很多求解算法都是基于该思想. 引入信念状态后, 不可完全观测的系统状态可以
通过一个完整的动作、观测序列来逐步推断系统状态的变化, 这一前后相继的时序序列被称为历史, 可用

h t = {a 1 ,o 1 ,a 2 ,o 2 ,...,a t ,o t } 表示, t 时刻的信念状态可表示为 b t = P(s t |a t ,o t ,a t−1 ,o t−1 ,..., a 0 ,o 0 , s 0 ) . 此时, POMDP 问题
求解的核心是寻求一个 (近似) 最优策略, 即将内部信念状态映射到动作的最优函数, 通常用 π 、 π(b) 或 π(b 0 ,h t ) 来
表示, 并且有 π(b) ∈ A .
使用 POMDP 进行用户意图提取的最终目的, 是为了通过对交互意图的建模使系统选择最优的机器动作, 表
现为实现折扣回报和的期望最大, 可用公式 (1) 来表示, 其中 π 为最优策略.
∗
 
∞
∑ ∑ 
∗   t  
π = argmaxE   γ b t (s)R(s,π(b t ))   (1)
 
t=0 s∈S
4.2 意图提取示例
考虑到人的记忆容量和人的交互动作的复杂性, 有些指-笔混合交互原语会有多种交互意图, 接下来我们以指-
笔并行交互原语 HoldLeft 为例, 展示意图提取方法的具体示例.
状态空间 S = {s 0 , s 1 , s 2 } , 用来表征当前动作对后续交互原语 HoldLeft 多意图提取的影响, 空间中的状态可以
表示为 s i = < Position,SelectionCount,Intention > , 蕴含了位置、可视化构件选择数和意图等特征. 在集合中, s 0 用
于表示左对齐, s 1 表示撤销, s 2 表示返回上一界面 (或退出当前界面).
动作空间 A = {a 0 ,a 1 ,a 2 ,a 3 } , 是机器动作的集合, 当交互原语具有唯一性时, 机器动作可以用交互原语来表示.
a 0 表示点击动作, 用于选取构件或点击屏幕 (Tap a 1 表示移动动作, 可以用于改变构件的位置
其中, 交互原语);
(Pan 交互原语); a 2 表示批量选取动作, 可以同时选中多个构件 (Drag 交互原语); a 3 表示增量选取动作, 用于增选
或减选构件 (HoldTap 交互原语).

观察空间 Ω = {o 0 ,o 1 ,o 2 ,o 3 ,o 4 ,o 5 } . 其中, o 0 表示观察到各个构件都处于常态, 即没有构件被选中并且没有构件
的位置刚刚发生改变; o 1 表示观察到有一个构件被选中; o 2 表示观察到多个构件被选中; o 3 表示观察到多个构件
以某构件的左边为参照进行了移动; o 4 表示观察到系统返回到上一次操作的状态, 主要表现为选中项目数和位置

448 449 450 451 452 453 454 455 456 457 458