Page 83 - 《软件学报》2021年第10期
P. 83
张维 等:动态手势理解与交互综述 3055
节的位置,形成一个初步的手势,进而形成一个合成深度图,最后,由优化子网络通过合成深度图与初始深度图
的比对,对检测结果进行修正.投影图 [20] 是另一种优化的方法.将深度图投影形成其三视图,在投影图上提取特
征、绘制热力图再重新融合,学习最终的关节位置,使得探测的结果更加精确.
还可以通过将深度图像转化成点云 [21] ,并进一步转化成体素 [22] 、点云网络来进行优化.这种方法体量小,运
算便捷、快速,精确度也很高;再或者采取数据扩充的思路,加入模拟数据 [23] 、多视角数据 [24] 、无监督数据 [25] 、
引入无对应深度图的纯关节点坐标 [26] ,利用扩充之后的数据对网络进行训练,也能提升其预测关节点的精度;结
合传统方法与深度学习方法的工作也取得了一定的成效,CNN 与均值漂移算法结合 [27] 、CNN 与 PSO 运动约束
优化算法结合 [28] 、CNN 与关节点约束算法结合 [29] ,都提高了关节点预测的精确度.
对于使用彩色图像进行输入的情况,基础的思路是:通过 CNN 预测关节点的二维热力图,并试图还原相机
角度、正则化关节坐标等参数,进而最终获得三维坐标 [30] .在此基础上,可以通过基于无标注训练样本的自助迭
代训练 [31] 、运动学骨架拟合 [32] 、利用 VAE 网络模型进行跨模态训练 [33] 等方式来扩充训练数据、细化坐标精
度,提高手势识别的精确程度.
1.3.2 基于可穿戴设备的技术
基于可穿戴设备的手势获取设备通常包括手套、基于肌电图(EMG)的设备、加速度计、标记点(marker)、
基于射频识别(RFID)的设备、陀螺仪和加速度计等.其中,数据手套和肌电图设备是最常用的两种可穿戴手势获
取设备.
数据手套可以提供用户手势的姿态跟踪信息,如手指是怎样弯曲的,两个手指是否重叠、遮挡等,它有两种
基本类型:弯曲感觉手套和压力手套.弯曲感觉数据手套是被动的输入设备,用来检测用户的手形和特定的手
势.它的一个主要优点是:能够提供大量的自由度信息,使其不但可以识别各手势和手形,而且可以给 3D 应用提
供用户的手姿态.不过,这类手套穿戴不舒服,需要根据用户手的物理参数的不同进行参数校准.压力手套系统
是一种用于判别用户是否有两个或多个指尖发生触碰的输入设备.这类手套的每个指尖有一个导电材料,因此
用户可以通过两个手指的捏、压,产生一个电路连接.这类设备通常用来在物体选取、模式转换和其他一些技
术中,用于判断用户的抓取和捏压手势.压力手套非常轻,能够降低用户的疲劳度,也可以应用于双手交互.代表
性的手势交互设备有 Soli [34] 、MYO 腕带 [35] .Soli 通过微型雷达获取的空中手势信号,识别为一系列交互手势,
它更擅长处理动态手势;MYO 通过臂带上传感器获取的肌肉生物电变化,判断佩戴者的意图.此外,使用固定在
手套上的光学标记点 [36] ,与多台摄像机配合,可以完成高精度的手势采集.
基于可穿戴设备的技术具有健壮性好的优点,但是可穿戴设备往往对使用者有所限制,并且使用者容易疲
劳等,这些缺点容易影响用户的交互体验.
1.4 手势在应用中的功能
本节关注手势在具体应用中承担的功能.一个手势到底表达了什么意思、属于哪个类别,并不是一成不变
的,手势本身的功能往往会因为开发者的事先设计、用户的使用体验以及技术水平的制约发生一定的改变,进
[8]
而间接影响手势的语境分类 .在每个特定的应用场景,研究人员往往会选用不尽相同的手势,通常没有一种压
倒性被选择的手势,成为这种应用场景的专属手势.尽管如此,随着研究的日益深入与广泛,我们可以发现,一些
手势类型的选择方式还是会更受研究人员的青睐.如:对于基于手势的界面,由于深度摄像机与动作捕获设备的
普及,使用基于视觉的技术已成为主流;而从手势的交互目的分类上看,视觉识别多用于操纵、指示、交互型手
势;3D 建模往往使用自由型手势,通过 3D 相机和动作传感器进行手势理解;可穿戴式手势交互设备可以更准确
地捕捉手势复杂组合以及信号型手势.
1.4.1 手势的语境分类
[8]
手势按照语境分类,可以先归为主要的四大类 :指示型、互动型、操纵型、信号型.考虑到这四大类手势
有一些十分常见的组合,因此将其进一步归为 11 类,分别为单纯指示、指示+互动型、指示+信号型、指示+操
纵+互动型、指示+操纵+信号+自由型、单纯操纵、操纵+信号型、单纯自由型、自由+信号型、单纯信号型、
信号+节奏型,其中,节奏型手势主要用于与音乐相关的应用.