Page 448 - 《软件学报》2024年第4期
P. 448

2026                                                       软件学报  2024  年第  35  卷第  4  期


                 任务, 如左对齐、垂直分布、高亮文本等.
                    ● 意图提取器: 意图提取器主要是根据用户当前输入的交互原语、上一个交互原语及历史记录, 利用
                 POMDP  构建的模型来推断当前交互场景下的用户意图, 以期完成用户的交互任务. 因此, 任务生成器是对意图提
                 取器的更为具体的描述. 如图         1  所示, 基于  POMDP  的意图识别器利用上下文        (context) 中的信息进行意图推断. 用
                 虚线框表示的     context 是对当前交互环境的抽象表示, 它不仅包括前一个交互原语和交互任务, 还包含历史信息和
                 交互对象等. 图中深色背景表达了用户的序列交互动作之间可能存在着隐式关联, 为复杂交互原语的交互意图提
                 取提供了更为丰富的语义信息.
                    独立或并行的指-笔交互信息是用户与计算机进行交互的最小输入, 是实现其交互目的的最小交互动作, 表现
                 为交互原语. 人们施加在计算机上的交互动作在计算机中被识别为交互原语, 通常具有明确的交互意图, 通过有限
                 状态机可以实现交互原语与交互任务的绑定, 它们之间是一一对应的. 但人们的交互动作在不同环境下可能具有
                 不同语义, 这催生了多义性交互原语. 借助用户的历史交互信息和当前交互上下文来提取用户的交互意图, 是本文
                 解决这种意图不确定的策略, 表现为利用             POMDP  对用户的交互意图进行推断.
                    指-笔混合输入交互模型的核心是混合交互原语的生成和识别过程, 多义性交互原语在交互原语中的占比较
                 小, 交互意图或交互任务通常是确定的, 不需利用              POMDP  模型对交互原语的语义进行再次推断, 故意图提取器是
                 可选的. 图  1  中灰色背景的意图提取器和意图部分, 一方面表示当前交互意图与上下文有关, 受交互原语序列和各
                 自的交互意图影响, 另一方面表示该部分是可选的, 受交互原语的交互意图数量制约.

                  3   指-笔混合输入交互原语

                  3.1   混合输入交互原语的形式化表达
                    指、笔交互原语的归一化表达是实现指、笔融合的基础, 特征分析和抽象是实现归一化的主要手段.
                    指-笔混合交互信息是组成交互原语的基本元素, 它是在指、笔交互过程中与屏幕接触时产生的. 指、笔在触
                 摸屏上的运动轨迹表现为连续的点的集合, 它们除了输入精度上存在差异外, 采集到的数据具有一致的表达形式.
                 因此, 我们将每个轨迹点信息用前文所述的指笔交互信息 PTI 来表达.
                    交互原语是用户通过交互设备施加到计算机上的一个独立的、最小的、不可分割的操作. 指-笔混合交互的
                 基本原语是一段连续轨迹信息所代表的操作, 它代表了用户在完成交互任务过程中输入的独立的、最小的、不可
                 分割的一段指-笔交互信息的集合. 由此, 我们可以将指-笔混合交互原语表示为                       IP = <PTI 1 , PTI 2 ,…, PTI n > = PTIS.
                    虽然上述表达形式可以用来表示所有的混合交互原语, 但仅有一种交互原语是很难完成复杂交互任务的. 指-
                 笔混合交互原语是两种交互原语的混合体, 因此, 我们有必要将指式原语和笔式原语的定义囊括进来. 为了更清晰
                 地体现该原语的产生设备和定义更多的交互原语, 我们将交互原语进一步优化为                           IP = <Gesture, PTIS, Constraint,
                 Device>. 其中, Gesture 为交互原语的名称, 可以是单击、双击、绘制和自定义原语; Constraint 为约束条件, 表示
                 该原语所具有的特征, 如时间约束、图形约束等; Device                为交互原语的产生设备, 主要包括             Pen、Touch  和
                 PenTouch.
                    前面用元组的形式定义了指-笔混合输入交互信息和混合输入交互原语, 其精确的                          BNF  描述如下所示.
                                      < IP > ::= < Gesture >< PTIS >< Constraint >< Device >,
                                      < Gesture > ::= Tap|Hold|Pan|Drag|CustomizedPrimitive,
                                      < PTIS > ::= {PTI},
                                      < PTI > ::= < Position >< Time >< Device >,
                                      < Device > ::= Pen | Touch | PenTouch.
                  3.2   混合输入交互原语空间
                    指-笔混合输入交互原语空间不是指、笔交互空间的简单合并, 它是由指、笔交互原语有机融合在一起所形
                 成的交互空间, 主要包括归一化的单设备交互原语和并行的指-笔混合交互原语.
   443   444   445   446   447   448   449   450   451   452   453