Page 83 - 《软件学报》2021年第10期
P. 83

张维  等:动态手势理解与交互综述                                                               3055


                 节的位置,形成一个初步的手势,进而形成一个合成深度图,最后,由优化子网络通过合成深度图与初始深度图
                 的比对,对检测结果进行修正.投影图            [20] 是另一种优化的方法.将深度图投影形成其三视图,在投影图上提取特
                 征、绘制热力图再重新融合,学习最终的关节位置,使得探测的结果更加精确.
                    还可以通过将深度图像转化成点云             [21] ,并进一步转化成体素     [22] 、点云网络来进行优化.这种方法体量小,运
                 算便捷、快速,精确度也很高;再或者采取数据扩充的思路,加入模拟数据                        [23] 、多视角数据  [24] 、无监督数据  [25] 、
                 引入无对应深度图的纯关节点坐标            [26] ,利用扩充之后的数据对网络进行训练,也能提升其预测关节点的精度;结
                 合传统方法与深度学习方法的工作也取得了一定的成效,CNN 与均值漂移算法结合                            [27] 、CNN 与 PSO 运动约束
                 优化算法结合     [28] 、CNN 与关节点约束算法结合       [29] ,都提高了关节点预测的精确度.
                    对于使用彩色图像进行输入的情况,基础的思路是:通过 CNN 预测关节点的二维热力图,并试图还原相机
                 角度、正则化关节坐标等参数,进而最终获得三维坐标                   [30] .在此基础上,可以通过基于无标注训练样本的自助迭
                 代训练  [31] 、运动学骨架拟合    [32] 、利用 VAE 网络模型进行跨模态训练         [33] 等方式来扩充训练数据、细化坐标精
                 度,提高手势识别的精确程度.
                 1.3.2  基于可穿戴设备的技术
                    基于可穿戴设备的手势获取设备通常包括手套、基于肌电图(EMG)的设备、加速度计、标记点(marker)、
                 基于射频识别(RFID)的设备、陀螺仪和加速度计等.其中,数据手套和肌电图设备是最常用的两种可穿戴手势获
                 取设备.
                    数据手套可以提供用户手势的姿态跟踪信息,如手指是怎样弯曲的,两个手指是否重叠、遮挡等,它有两种
                 基本类型:弯曲感觉手套和压力手套.弯曲感觉数据手套是被动的输入设备,用来检测用户的手形和特定的手
                 势.它的一个主要优点是:能够提供大量的自由度信息,使其不但可以识别各手势和手形,而且可以给 3D 应用提
                 供用户的手姿态.不过,这类手套穿戴不舒服,需要根据用户手的物理参数的不同进行参数校准.压力手套系统
                 是一种用于判别用户是否有两个或多个指尖发生触碰的输入设备.这类手套的每个指尖有一个导电材料,因此
                 用户可以通过两个手指的捏、压,产生一个电路连接.这类设备通常用来在物体选取、模式转换和其他一些技
                 术中,用于判断用户的抓取和捏压手势.压力手套非常轻,能够降低用户的疲劳度,也可以应用于双手交互.代表
                 性的手势交互设备有 Soli      [34] 、MYO 腕带 [35] .Soli 通过微型雷达获取的空中手势信号,识别为一系列交互手势,
                 它更擅长处理动态手势;MYO 通过臂带上传感器获取的肌肉生物电变化,判断佩戴者的意图.此外,使用固定在
                 手套上的光学标记点       [36] ,与多台摄像机配合,可以完成高精度的手势采集.
                    基于可穿戴设备的技术具有健壮性好的优点,但是可穿戴设备往往对使用者有所限制,并且使用者容易疲
                 劳等,这些缺点容易影响用户的交互体验.
                 1.4   手势在应用中的功能

                    本节关注手势在具体应用中承担的功能.一个手势到底表达了什么意思、属于哪个类别,并不是一成不变
                 的,手势本身的功能往往会因为开发者的事先设计、用户的使用体验以及技术水平的制约发生一定的改变,进
                                       [8]
                 而间接影响手势的语境分类 .在每个特定的应用场景,研究人员往往会选用不尽相同的手势,通常没有一种压
                 倒性被选择的手势,成为这种应用场景的专属手势.尽管如此,随着研究的日益深入与广泛,我们可以发现,一些
                 手势类型的选择方式还是会更受研究人员的青睐.如:对于基于手势的界面,由于深度摄像机与动作捕获设备的
                 普及,使用基于视觉的技术已成为主流;而从手势的交互目的分类上看,视觉识别多用于操纵、指示、交互型手
                 势;3D 建模往往使用自由型手势,通过 3D 相机和动作传感器进行手势理解;可穿戴式手势交互设备可以更准确
                 地捕捉手势复杂组合以及信号型手势.
                 1.4.1  手势的语境分类
                                                        [8]
                    手势按照语境分类,可以先归为主要的四大类 :指示型、互动型、操纵型、信号型.考虑到这四大类手势
                 有一些十分常见的组合,因此将其进一步归为 11 类,分别为单纯指示、指示+互动型、指示+信号型、指示+操
                 纵+互动型、指示+操纵+信号+自由型、单纯操纵、操纵+信号型、单纯自由型、自由+信号型、单纯信号型、
                 信号+节奏型,其中,节奏型手势主要用于与音乐相关的应用.
   78   79   80   81   82   83   84   85   86   87   88