Page 473 - 《软件学报》2024年第4期
P. 473

何建航 等: 基于人体和场景上下文的多人            3D  姿态估计                                        2051


                 景上下文融合) 的结果表明        HSC-Pose 的  3DPCK ab 提高  0.4%, 而实验  7 (利用  DC+RP  进行上下文融合), 比实验  6
                                                       s
                 提高  0.9%. DC  融合人体和场景上下文, 利于缓解绝对深度歧义. 而              RP  在上下文融合过程中更关注人体区域, 不
                 仅降低了优化难度, 还能增强效果.
                    图像特征映射至场景依赖          DD  和  DFL, 讨论  DD  和  DFL  在特征映射过程中的作用, 设计实验        8–实验  10, 见
                 表  5. 较之实验  1, 实验  8  结果表明  HSC-Pose 的  3DPCK ab 降低  1.3%. 说明不采用  DD  和  DFL  很难应对“图像至场
                                                             s
                 景”特征映射存在的多对一歧义. 较实验            8, 实验  9 和实验  10 (DD  和  DD+DFL) 的结果表明: HSC-Pose 的  3DPCK abs
                 分别提高   3.2% (实验  9) 和  4.4% (实验  10), DD  和  DFL  对缓解特征映射歧义效果明显, 并能促进绝对深度期望值
                 接近真值.
                  3.5   测试集  MuPoTS-3D  上的对比实验
                    本文特色在于: (1) 采用关键点区域提议替代人体包围框, 提取高信噪比人体上下文; (2) 从鸟瞰视角提取场景
                 上下文, 获得三维空间下的人体位置布局. 通过融合人体和场景上下文可靠预测人体绝对深度. 参与实验的                                3  类先
                 进方法   (state-of-the-arts) 包括: 自顶向下, 自底向上和联合自顶向下和自底向上的方法. 自顶向下方法所选择的代
                 表工作包括文献      [2,3,10]. 自底向上方法所选代表工作包括文献          [4,6]. 综合自顶向下和自底向上方法所选择的代表
                 性工作包括文献      [7,8,29].
                    在  MuPoTS-3D  上进行同类方法比较, 实验结果见表           6. 配置“matched people”评估与真值匹配的结果. 较文
                 献  [3,4], HSC-Pose  的  3DPCK re 和 l  3DPCK ab 至少提高  3.4%  和  6.3%. 较文献  [2], HSC-Pose  的  3DPCK ab 提高
                                                                                                    s
                                                    s
                 2.7%. 各模型性能上的差异归咎于不同的上下文提取方法, 文献                 [2,3] 都基于人体上下文, 但是, 文献      [2] 在文献  [3]
                 基础上补充了人体姿态信息, HSC-Pose 包括场景上下文和带噪声抑制的人体上下文. 较文献                          [10], HSC-Pose 的
                 3DPCK re 和 l  3DPCK ab 分别提高  2.2%  和  9.8%. 文献  [3,10] 都基于包围框提取人体上下文, 且未提取场景上下文.
                                  s
                 较文献   [29], HSC-Pose 的  3DPCK ab 低 s  2%, 但文献  [29] 因合成数据计算开销更大.


                                              表 6    MuPoTS-3D  上的对比实验结果

                                                    Matched people              All people
                             文献      GFLOPs
                                              3DPCK rel  (%)↑  3DPCK abs  (%)↑  3DPCK rel  (%)↑  3DPCK abs  (%)↑
                              [5]      -          74.2         -           71.3         -
                              [3]     603.5       82.5        31.8         81.8         31.5
                             [10]      -          83.7        35.2          -           -
                              [4]     197.7       80.5        38.7         73.5         35.4
                              [8]     320.2       -            -           82.0         43.8
                              [2]      -          83.5        42.3         82.5         39.2
                              [6]      -          -            -           82.7         39.2
                              [7]      -          -            -           89.6         48.0
                             [29]      220        -           47.0          -           44.0
                           HSC-Pose    76.8       85.9        45.0         85.1         44.3

                    配置“all people”: 较之文献  [3,4], HSC-Pose 的  3DPCK re 和 l  3DPCK ab 提高  3.3%  和  8.9%; 较之文献  [8], HSC-
                                                                         s
                 Pose 的  3DPCK re 和 l  3DPCK ab 提高  3.1%  和  0.5%; 较之文献  [7], HSC-Pose 的  3DPCK re 和 l  3DPCK ab 均明显降低,
                                                                                              s
                                        s
                 Cheng  等人  [7] 利用时序提取上下文的方法值得探究. 关于计算复杂度             (GFLOPs), HSC-Pose 优势显著.
                  3.6   Human3.6M  测试集上的对比实验
                    在  Human3.6M  测试集上评估模型的     MPJPE, P-MPJPE  和  MRPE, 见表  7. 较之单人  3D  姿态估计方法, HSC-Pose
                 的  P-MPJPE  至少降低  1.8 mm. HSC-Pose 的  MPJPE  高于文献  [30] 0.1 mm, 低于多数同类方法. 较之多人   3D  姿态
                 估计方法, HSC-Pose 的  MPJPE  和  P-MPJPE  分别至少降低   1.2 mm  和  0.4 mm, 绝对深度指标  MRPE  至少降低  4.2
                 mm, 说明  HSC-Pose 对缓解深度歧义效果显著.
   468   469   470   471   472   473   474   475   476   477   478