Page 463 - 《软件学报》2024年第4期
P. 463

何建航 等: 基于人体和场景上下文的多人            3D  姿态估计                                        2041


                 计效果受限. Lin   等人  [10] 基于人体检测构建    2D  关键点热图, 聚焦关键点区域提取人体上下文, 能够明显减少背景
                 或服饰等噪声干扰; 但是, 获取准确的关键点热图成本高昂. 近期, 连通性和对称性等人体先验广泛应用于姿态估
                 计图卷积网络的设计, 以减少关键点间的噪声传播                [11] . 但是, 仅适合建模静态关键点关系, 很难适应变化的人体姿
                 态. 关于第  2  个问题, 近期  Reading  等人  [12] 设计人体深度分布分类网络进行单目        3D  目标检测, 他们从鸟瞰视角提
                 取场景上下文获得人体位置布局的方法对多人场景                   3D  姿态估计具有深远的启发意义. 但是, 鸟瞰视角场景缺失
                 人体尺度信息, 而透视原理表明人体尺度是绝对深度估计的重要依据.
                    从全局图像挖掘人体和场景上下文是缓解深度歧义的关键                     [7] . 本文提出新的两分支网络, 自顶向下分支采用
                 “关键点区域提议”替代人体包围框描述人体目标, 并兼及背景噪声、边缘、肢体朝向等信息优化关键点区域特征
                 描述, 进而建模姿态关联的动态稀疏关键点关系提高模型的相对姿态恢复能力. 自底向上分支从鸟瞰平面而非图
                 像平面提取场景上下文获得三维空间人体位置布局, 联合人体和场景上下文可靠预测人体绝对深度. 本文主要贡
                 献如下.
                    (1) 提出新的双分支网络, 自顶向下分支基于关键点区域提议提取人体上下文, 自底向上分支基于三维空间提
                 取场景上下文.
                    (2) 提出带噪声抑制的人体上下文提取方法, 建模“关键点区域提议”描述人体目标, 建模姿态关联的动态稀疏
                 关键点关系剔除弱连接减少噪声传播.
                    (3) 提出基于鸟瞰视角场景上下文预测场景布局及位置关系的方法, 设计人体和场景上下文融合网络预测人
                 体绝对深度.
                    (4) 在公开数据集    MuPoTS-3D  和  Human3.6M  的实验结果表明: 与同类先进模型相比, 本文模型           HSC-Pose 的
                 相对和绝对    3D  关键点位置精度至少提高        2.2%  和  0.5%; 根关键点位置误差至少降低      4.2 mm.
                  1   噪声抑制人体上下文提取


                    采用自顶向下的方法提取人体上下文, 涉及人体检测和人体关键点关系建模. 建模“关键点区域提议”描述人
                 体目标能够显著降低背景噪声对人体上下文的影响, 建模姿态关联的动态稀疏关键点关系进一步抑制噪声传播,
                 以提高关键点位置估计精度. 相关网络设计涉及关键点区域提议模块                       KRPM (keypoint region proposal module) 和
                 姿态关联关键点关系模块         PKRM (pose-relative keypoint relationship module).
                  1.1   建模“关键点区域提议”
                  1.1.1    提取关键点区域

                    设人体关键点      k  的包围框真值为    (µ k ,w k ,h k ,θ k ) , 其中,   k ∈ {0,...,K −1} , K  表示除根关键点之外的人体关键点
                                    T                                                         k 的预测包围
                 数目,    µ k = [x k ∈ R,y k ∈ R]  ,    w k ∈ R h k ∈ R 和   θ k ∈ R 分别表示包围框中心坐标, 宽, 高和旋转角. 关键点
                                            ,
                          ˆ
                 框为  (ˆµ k , ˆw k ,h k , ˆ θ k ) . 得益于旋转角, 关键点包围框具有肢体朝向适应性, 利于避开背景噪声.
                    采用  BasicBlock [13] 构建中心分类网络和包围框回归网络预测中心分类图               C C ∈ R 1×(H/4)×(W/4)  ) 和包围框图谱
                                                                                (
                 M M ∈ R 5×(H/4)×(W/4)  ) 获得像素级人体中心  (人体根关键点) 及预测包围框. 其中, H     和  W  分别表示输入图像的高度
                    (
                 和宽度. 分类网络和回归网络如后文图            2  所示, 分类图  C 反映图像像素     p 是否属于人体根关键点区域,          M  反映图
                       p 是否对应人体     K                     ˆ                             p 到包围框中心的距
                 像像素                 个关键点的包围框       ( ˆµ k , ˆw k ,h k , ˆ θ k ) , 偏移量估计   ˆ µ k  是通过度量像素
                 离获得  [14] , 即   ˆ µ k = µ p + ˆo k o k ∈ R  表示偏移量,    µ p ∈ R  表示像素  p 的坐标.
                                                          2
                                          2
                                      ˆ
                                     ,
                    采用  3×3 窗口的非极大值抑制        NMS (non-maximum suppression) 计算从中心分类图   C 中提取候选人体根关
                                          M  中提取候选人体     K  个感兴趣关键点区域提议.
                 键点, 进而从关键点包围框图谱
                  1.1.2    损失函数设计
                                                 ˆ
                    使用  L1  或  L2  损失函数优化   ˆ µ k w k h k  和   ˆ θ k  , 需要提供人工标注真值  w k h k  和  θ k  , 而且各个参数的优化过程
                                              ˆ  ,
                                                                             ,
                                             ,
                 相互独立. 为了使关键点区域提议尽可能覆盖人体关键点并减少背景噪声占比, 需联合优化上述参数. 使得关键点
                 包围框中心接近当前关键点时, 适当缩小包围框尺寸以滤除更多背景噪声. 为此, 我们采用高斯分布建模关键点包
   458   459   460   461   462   463   464   465   466   467   468