Page 85 - 《软件学报》2021年第10期
P. 85
张维 等:动态手势理解与交互综述 3057
2.1 基于不同模态的手势识别与手势检测
2.1.1 基于 RGB 图像与视频的手势识别与手势检测算法
我们首先分别介绍基于 RGB 图像与视频的手势识别、手势检测的代表性思路;然后根据是否使用深度学
习,分别介绍基于传统方法和基于深度学习的代表性工作.传统机器学习方法主要有动态时序规整(DTW)、隐马
尔可夫模型(HMM)、条件随机场(CRF)和随机森林(RF)方法;基于深度学习的方法主要有基于 LSTM 的方法和
基于 CNN 的方法.
对于手势识别问题,无论是基于传统机器学习的方法,还是基于深度学习的手势识别方法,一般都需要先提
取出视频中手部的位置,也称为人手检测.传统人手检测有基于手部肤色的方法和基于手部运动信息的方法:基
于手部肤色的方法利用手部肤色与背景颜色信息的差异来进行手部的分割,但是这种方法对背景光照、颜色信
息比较敏感;基于手部运动信息的方法利用手部相对于背景的运动信息来进行手势分割,这种方法需要背景信
息大致不变,鲁棒性较差.随着近年来深度学习的发展,如 Faster RCNN 和 SSD 等物体检测算法越来越多地被应
用到手势分割上,这种方法具有精度高、鲁棒性好等优点.
手势识别方法的主要流程分为两个阶段.
1) 利用传统特征提取方法或深度学习特征提取方法提取手势的特征;
2) 将提取的特征输入到分类器中进行手势分类.
手势检测方法主要分为两种方式:基于候选动作片段(action proposal)的手势检测方法和基于样本类间差
异的方式.基于候选动作片段的手势检测方式可以分为以下 4 个步骤.
1) 利用时序滑动窗口等方式提取动作片段;
2) 利用传统特征提取方法或深度学习特征提取方法提取每个片段的特征;
3) 将每个片段的特征输入分类器中进行动作片段与背景片段分类;
4) 将每个动作片段的特征输入分类器中进行动作分类和起始帧的微调;
5) 利用 NMS 等方法剔除重复片段.
基于类间差异的手势检测方法主要分为以下几个阶段.
1) 利用传统特征提取方法或深度学习特征提取方法提取手势的特征;
2) 利用动作片段与背景片段特征之间的差异性分离动作片段与背景片段,主要有基于先验知识的方式和
基于 Connectionist Temporal Classification(CTC)分类器的方式;
3) 利用分类器对每个片段的特征进行分类.
(1) 传统的手势识别和手势检测的方法
基于传统机器学习的方法在 2012 年之前使用得较多,传统机器学习方法主要有动态时序规整(DTW)、隐
马尔可夫模型(HMM)、条件随机场(CRF)和随机森林(RF)方法.DTW 是一种模板匹配算法,这种方法实现简单,
不需要训练,但是需要高精度模板来进行匹配.HMM 和 CRF 方法都是基于概率模型的算法,这两种方法都能很
好地提取动态时序信息.RF 算法作为一种常用机器学习算法,主要使用集成树状分类器.
隐马尔可夫模型(HMM)是一种广泛应用于手势识别的模型,手势识别模型被假设为参数未知的马尔可夫
过程,利用具有转移和发射概率的隐状态网络表示可观察符号序列的统计行为,可用于利用可观测数据识别隐
藏参数后的模式识别.基于 HMM 的动态手势识别方法主要利用输入图像的时空特征.Chen 等人 [37] 利用傅里叶
描述符和基于光流的运动分析,分别表征空间和时间特征.该算法通过对手部的实时跟踪,从复杂背景中提取手
部形状.基于 HMM 的识别器识别给定模式的最佳似然手势模型.手势与参考模式之间的变化会降低手势与模
型之间的可能性.对于直接三维连续手势识别,可以方便地利用速度、轨迹等低层次的运动特征来检测定位的
突变 [38] .Elmezain 等人 [39] 提出了一种利用 HMM 实时识别连续数字手势的系统,首先从深度域的时空轨迹生成
方位动态特征,然后将其量化为码字.连续手势的分割是在零码字检测的基础上进行的,零码字实际检测到了手
势的静态速度和端点.
动态时间归整(DTW)是一种动态规划应用,在手势识别和检测中得到了广泛的应用.DTW 通过计算待匹配