Page 446 - 《软件学报》2024年第4期
P. 446

2024                                                       软件学报  2024  年第  35  卷第  4  期


                 心问题之一. 正如     Shi 等人  [19] 所述, “与传统的依赖于鼠标、键盘的精确交互不同, 自然用户界面支持触控、语音、
                 手势、书写和视觉等几种具有一定不确定性的交互方式. 关于语音、手写和视觉的研究已经取得了巨大进展, 而
                 与交互任务息息相关的触控和手势的研究依旧相对薄弱. 对具有不确定性的交互方式研究的难点在于如何从连续
                 的随机数据中识别用户的真实输入意图”, 而指笔输入意图的识别和理解严重依赖于输入笔迹信息的识别和意图
                 理解方法. 常见的用户意图理解方法可以分为基于规则和基于统计两大类                         [20] . 其中, 基于规则的推理和决策通常
                 是以有限状态机为模型的问答控制流, 它以系统为主导                  (system-initiative) [21] ; 而基于统计的推理和决策将信息处理
                 过程视为一个决策过程, 主要根据会话的整体成功情况来优化系统动作的选择过程                           [22] . 随着机器学习以及人工智
                 能的发展, 基于统计的方法逐渐成为主导. 例如易鑫等人                 [23] 尝试利用用户自然输入的行为数据来解释用户输入意
                 图, 主要通过贝叶斯定理将交互意图的后验概率转化为交互意图的先验概率与用户输入行为的条件概率的乘积,
                 再计算建模. Bai 等人    [24] 采用混合整数线性规划方法优化驾驶场景中的输入信号, 进而识别其他车辆在交叉口和
                 高速公路上换道时的意图. Nguyen        等人  [25] 通过马尔可夫决策过程推断用户正在执行的简单任务或子任务, 将意图
                 识别应用于游戏场景. 吴涛等人          [26] 将部分可观测马尔可夫决策过程         (POMDP) 应用于网络安全领域, 用以识别网
                 络入侵意图. Dong   等人  [27] 针对单模态输入时交互性不足和低准确率问题, 设计了一种基于决策级融合的算法, 用
                 以解决虚拟化学实验中用户操作意图的感知问题.
                    指-笔混合输入能够弥补触摸交互和笔式交互各自交互能力不足的问题, 但目前缺乏相应的指-笔混合模型和
                 交互原语来定义混合输入空间、规范指-笔并行操作, 从而有效指导指-笔混合交互的设计和开发过程, 如混合交
                 互原语设计、用户意图提取等. 目前已有有一些笔式交互和触摸交互的研究能够为指-笔混合输入交互模型的研
                 究提供理论支撑. 如田丰等人         [1] 和戴国忠等人   [2] 提出的笔式交互原语生成模型, 可以很好地描述             4  种基本原语的
                 状态变化和生成过程, 为混合交互原语的提出奠定了基础. 刘杰等人                     [16] 基于连续交互空间的概念, 将混合交互手
                 势、空中手势和表面触控手势进行了统一, 提出了三维连续交互空间下的混合手势交互模型, 并给出了多种交互
                 空间的融合方案, 虽然其核心在于三维空间中的手指交互, 但也为指-笔混合交互原语的归一化提供了参考.
                 Google Research  的  Li 等人  [15] 针对触摸交互中的不确定性导致开发人员难以开发自定义手势的问题, 分析了人的
                 触控行为并建立了动作模型, 开发了手势设计工具                Touch  并提供了  API, 可以促进和加速开发人员描述和设计想
                 要的触摸手势. 虽然该研究主要关注了触摸手势, 但对本文并行交互原语的状态描述提供了重要依据.
                    通过上述文献调研可以看出, 虽然很多研究成果对本文的研究有很好的借鉴意义, 但针对指-笔混合交互中的
                 一些核心问题, 如指-笔并行交互机制、指-笔混合交互模型和交互原语、用户意图提取等并没有进行深入研究.
                 基于此, 本文从指-笔混合的并行协作机制和意图关联出发, 提出了一种面向指-笔混合输入的交互模型、定义了
                 指-笔混合交互原语、提出了基于时序信息的指-笔混合输入意图提取方法, 并通过一个用户实验说明了指-笔混合
                 输入的优势.
                  2   指-笔混合输入交互模型

                    指-笔混合输入支持串行和并行的指、笔混合输入. 作为一种自然交互方式, 指-笔混合输入扩展了指笔交互
                 信道, 扩充了指笔交互空间, 具有交互通道多、学习成本低、交互效率高、用户体验好等优点. 但与此同时, 指-笔
                 混合输入也带来了输入时更多的不确定性.
                    指-笔混合输入的交互模型是基于指-笔混合输入过程中的时序特征提出的一种解决交互过程中不确定性的
                 解决方案, 如图    1  所示, 该方案共包括     5  个部分和  2  个过程. 其中, 5  个部分是指交互信息、原语生成器、交互原
                 语、意图提取器和意图; 2       个过程是指交互原语产生过程和交互任务产生过程, 分别与原语生成器和意图提取器
                 相对应. 原语生成器在一定程度上解决了交互手势识别中的不确定性问题, 意图提取器解决了多义性交互原语的
                 意图推断不确定性问题.
                    ● 交互信息: 在指、笔与触摸屏的接触过程中, 系统通过不同的传感器可以获得指点设备的位置、压力、倾
                 角等信息. 基于电子笔传感器种类和数量的差异以及手指的交互特点, 本文中的交互信息主要采用指-笔输入的位
   441   442   443   444   445   446   447   448   449   450   451