Page 448 - 《软件学报》2024年第4期
P. 448
2026 软件学报 2024 年第 35 卷第 4 期
任务, 如左对齐、垂直分布、高亮文本等.
● 意图提取器: 意图提取器主要是根据用户当前输入的交互原语、上一个交互原语及历史记录, 利用
POMDP 构建的模型来推断当前交互场景下的用户意图, 以期完成用户的交互任务. 因此, 任务生成器是对意图提
取器的更为具体的描述. 如图 1 所示, 基于 POMDP 的意图识别器利用上下文 (context) 中的信息进行意图推断. 用
虚线框表示的 context 是对当前交互环境的抽象表示, 它不仅包括前一个交互原语和交互任务, 还包含历史信息和
交互对象等. 图中深色背景表达了用户的序列交互动作之间可能存在着隐式关联, 为复杂交互原语的交互意图提
取提供了更为丰富的语义信息.
独立或并行的指-笔交互信息是用户与计算机进行交互的最小输入, 是实现其交互目的的最小交互动作, 表现
为交互原语. 人们施加在计算机上的交互动作在计算机中被识别为交互原语, 通常具有明确的交互意图, 通过有限
状态机可以实现交互原语与交互任务的绑定, 它们之间是一一对应的. 但人们的交互动作在不同环境下可能具有
不同语义, 这催生了多义性交互原语. 借助用户的历史交互信息和当前交互上下文来提取用户的交互意图, 是本文
解决这种意图不确定的策略, 表现为利用 POMDP 对用户的交互意图进行推断.
指-笔混合输入交互模型的核心是混合交互原语的生成和识别过程, 多义性交互原语在交互原语中的占比较
小, 交互意图或交互任务通常是确定的, 不需利用 POMDP 模型对交互原语的语义进行再次推断, 故意图提取器是
可选的. 图 1 中灰色背景的意图提取器和意图部分, 一方面表示当前交互意图与上下文有关, 受交互原语序列和各
自的交互意图影响, 另一方面表示该部分是可选的, 受交互原语的交互意图数量制约.
3 指-笔混合输入交互原语
3.1 混合输入交互原语的形式化表达
指、笔交互原语的归一化表达是实现指、笔融合的基础, 特征分析和抽象是实现归一化的主要手段.
指-笔混合交互信息是组成交互原语的基本元素, 它是在指、笔交互过程中与屏幕接触时产生的. 指、笔在触
摸屏上的运动轨迹表现为连续的点的集合, 它们除了输入精度上存在差异外, 采集到的数据具有一致的表达形式.
因此, 我们将每个轨迹点信息用前文所述的指笔交互信息 PTI 来表达.
交互原语是用户通过交互设备施加到计算机上的一个独立的、最小的、不可分割的操作. 指-笔混合交互的
基本原语是一段连续轨迹信息所代表的操作, 它代表了用户在完成交互任务过程中输入的独立的、最小的、不可
分割的一段指-笔交互信息的集合. 由此, 我们可以将指-笔混合交互原语表示为 IP = <PTI 1 , PTI 2 ,…, PTI n > = PTIS.
虽然上述表达形式可以用来表示所有的混合交互原语, 但仅有一种交互原语是很难完成复杂交互任务的. 指-
笔混合交互原语是两种交互原语的混合体, 因此, 我们有必要将指式原语和笔式原语的定义囊括进来. 为了更清晰
地体现该原语的产生设备和定义更多的交互原语, 我们将交互原语进一步优化为 IP = <Gesture, PTIS, Constraint,
Device>. 其中, Gesture 为交互原语的名称, 可以是单击、双击、绘制和自定义原语; Constraint 为约束条件, 表示
该原语所具有的特征, 如时间约束、图形约束等; Device 为交互原语的产生设备, 主要包括 Pen、Touch 和
PenTouch.
前面用元组的形式定义了指-笔混合输入交互信息和混合输入交互原语, 其精确的 BNF 描述如下所示.
< IP > ::= < Gesture >< PTIS >< Constraint >< Device >,
< Gesture > ::= Tap|Hold|Pan|Drag|CustomizedPrimitive,
< PTIS > ::= {PTI},
< PTI > ::= < Position >< Time >< Device >,
< Device > ::= Pen | Touch | PenTouch.
3.2 混合输入交互原语空间
指-笔混合输入交互原语空间不是指、笔交互空间的简单合并, 它是由指、笔交互原语有机融合在一起所形
成的交互空间, 主要包括归一化的单设备交互原语和并行的指-笔混合交互原语.