Page 474 - 《软件学报》2024年第4期
P. 474
2052 软件学报 2024 年第 35 卷第 4 期
表 7 在 Human3.6M 测试集的对比实验结果
单人姿态估计 多人姿态估计
方法 (mm)↓
[20] [31] [30] [32] [33] [1] [3] [2] [10] [8] HSC-Pose
MPJPE 49.6 48.6 47.3 49.5 48.6 57.0 54.4 52.7 - 48.6 47.4
P-MPJPE 35.7 - 31.9 33.4 42.1 - 35.2 33.8 - 30.5 30.1
MRPE - - - - - - 120 95.7 77.6 - 73.4
3.7 定性分析
[3]
[4]
以下可视化评估 SMAP , CAD , DAS 和 [6] HSC-Pose 等模型的多人 3D 姿态估计性能, 如图 12 所示.
图像
SMAP 的
多人 3D 姿态估计
CDA 的
多人 3D 姿态估计
DAS 的
多人 3D 姿态估计
HSC-Pose 的
多人 3D 姿态估计
图 12 可视化评价多种场景下的 HSC-Pose 性能
为了分析模型的鲁棒性, 从 MuPoTS-3D 测试集中选取人体遮挡和背景噪声显著的图片作为测试数据, 可视
化实验结果, 如图 12 第 1–4 列. 第 1 行自左至右第 1 张图像: 背景噪声较少, 所有方法的结果相似. 第 2 张图像: 红
色人体目标的人体中心被严重遮挡, SMAP 的绝对深度估计误差明显, DAS 出现漏检. HSC-Pose 的绝对深度估计
显优, 应对人体遮挡的效果更鲁棒.
为了分析模型应对视角变化的鲁棒性, 挑选与训练图像视角差异明显的数据作为测试数据, 可视化实验结果
如图 12 第 5–6 列. 对应第 1 行第 5–6 张图像, CAD 估计的绝对深度估计误差显著, 因其仅基于人体包围框尺度计
算绝对深度. 较其他方法, HSC-Pose 仍获得了较合理的人体位置, 但是估计精度有所下降. 虽然未限定图像视角,
但是受制于数据多样性不足 HSC-Pose 的视角泛化能力有限.
为了分析模型应对复杂场景的鲁棒性, 从 COCO 验证集挑选复杂场景图像作为测试数据, 如第 7–8 列所示.
对应第 1 行第 7–8 张图像, HSC-Pose 和 CAD 的精度优于 SMAP 和 CAD. HSC-Pose 在人体姿态细节上优于 DAS,
例如第 7 张图像的红色人体: DAS 仅关注图像全局上下文, HSC-Pose 兼及人体和场景上下文, 而且 HSC-Pose 恢
复人体姿态细节的效果明显. 但是, 包括 HSC-Pose 在内的所有参比方法, 对较远人体的姿态估计精度都显著下降,
一方面人体过小信息量不足; 另一方面, 目前训练数据中缺乏远距离 3D 人体姿态标注.
4 总 结
本文设计的自顶向下网络分支采用“关键点区域提议”替代人体包围框描述人体目标, 并兼及背景噪声、边缘、
肢体朝向等信息优化关键点区域特征描述, 进而建模姿态关联的动态稀疏关键点关系, 剔除弱连接关键点关系并阻断