Page 474 - 《软件学报》2024年第4期
P. 474

2052                                                       软件学报  2024  年第  35  卷第  4  期


                                           表 7    在  Human3.6M  测试集的对比实验结果

                                           单人姿态估计                                多人姿态估计
                   方法 (mm)↓
                              [20]   [31]  [30]   [32]  [33]   [1]    [3]    [2]   [10]   [8]   HSC-Pose
                    MPJPE     49.6   48.6  47.3   49.5  48.6   57.0   54.4  52.7   -     48.6     47.4
                   P-MPJPE    35.7   -     31.9   33.4  42.1   -      35.2  33.8   -     30.5     30.1
                    MRPE       -     -      -     -      -     -      120   95.7   77.6   -       73.4
                  3.7   定性分析
                                            [3]
                                      [4]
                    以下可视化评估      SMAP , CAD , DAS 和 [6]  HSC-Pose 等模型的多人  3D  姿态估计性能, 如图   12  所示.

                        图像



                     SMAP 的
                   多人 3D 姿态估计



                      CDA 的
                   多人 3D 姿态估计


                      DAS 的
                   多人 3D 姿态估计


                    HSC-Pose 的
                  多人 3D 姿态估计

                                          图 12 可视化评价多种场景下的          HSC-Pose 性能

                    为了分析模型的鲁棒性, 从         MuPoTS-3D  测试集中选取人体遮挡和背景噪声显著的图片作为测试数据, 可视
                 化实验结果, 如图     12  第  1–4  列. 第  1  行自左至右第  1  张图像: 背景噪声较少, 所有方法的结果相似. 第       2  张图像: 红
                 色人体目标的人体中心被严重遮挡, SMAP            的绝对深度估计误差明显, DAS         出现漏检. HSC-Pose 的绝对深度估计
                 显优, 应对人体遮挡的效果更鲁棒.
                    为了分析模型应对视角变化的鲁棒性, 挑选与训练图像视角差异明显的数据作为测试数据, 可视化实验结果
                 如图  12  第  5–6  列. 对应第  1  行第  5–6  张图像, CAD  估计的绝对深度估计误差显著, 因其仅基于人体包围框尺度计
                 算绝对深度. 较其他方法, HSC-Pose 仍获得了较合理的人体位置, 但是估计精度有所下降. 虽然未限定图像视角,
                 但是受制于数据多样性不足          HSC-Pose 的视角泛化能力有限.
                    为了分析模型应对复杂场景的鲁棒性, 从              COCO  验证集挑选复杂场景图像作为测试数据, 如第               7–8  列所示.
                 对应第   1  行第  7–8  张图像, HSC-Pose 和  CAD  的精度优于  SMAP  和  CAD. HSC-Pose 在人体姿态细节上优于   DAS,
                 例如第   7  张图像的红色人体: DAS     仅关注图像全局上下文, HSC-Pose 兼及人体和场景上下文, 而且               HSC-Pose 恢
                 复人体姿态细节的效果明显. 但是, 包括           HSC-Pose 在内的所有参比方法, 对较远人体的姿态估计精度都显著下降,
                 一方面人体过小信息量不足; 另一方面, 目前训练数据中缺乏远距离                    3D  人体姿态标注.

                  4   总 结

                    本文设计的自顶向下网络分支采用“关键点区域提议”替代人体包围框描述人体目标, 并兼及背景噪声、边缘、
                 肢体朝向等信息优化关键点区域特征描述, 进而建模姿态关联的动态稀疏关键点关系, 剔除弱连接关键点关系并阻断
   469   470   471   472   473   474   475   476   477   478   479