Page 258 - 《软件学报》2025年第5期

P. 258

2158 软件学报 2025 年第 36 卷第 5 期

3.1 数据集与评价指标
Human3.6M 数据集 [14] 是 3D 姿势估计中目前最大、使用最广泛的室内数据集, 包含由 11 个对象, 涉及 15 个
日常动作 (如走路、打招呼、拍照、吸烟等) 组成的 360 万帧视频图像. 该数据集分为训练集 S1、S5、S6、S7、
S8 和测试集 S9、S11 两部分, 其评价指标主要采用 MPJPE (mean per joint position error) 和 P-MPJPE (procrustes
analysis MPJPE). MPJPE (Protocol #1) 是计算所有关节点的估计坐标与真实坐标之间欧氏距离的平均值, 单位为
mm, 其侧重于衡量误差结果的绝对性. P-MPJPE (Protocol #2) 是对关节点估计的结果进行刚性变换对齐后的
MPJPE, 其更侧重于衡量所估计姿态与真实姿态的误差和两者之间的相似性.
MPI-INF-3DHP [15] 数据集是一个同时涉及室内及室外场景更大规模的数据集, 包含使用 14 个摄像头拍摄的
8 人, 涉及 8 个主题的 130 万帧视频图像. 该数据集的评价指标一般采用 MPJPE, 3D PCK (percentage of correct 3D
keypoints) 和 AUC (area under curve), 其中, 3D PCK 衡量 3D 关节点的正确率, 当估计的关节点坐标与真实坐标之
间的距离小于预定阈值 (通常阈值设置为 150 mm), 则认为估计的关节结果是正确的. AUC 为 ROC (receiver
operating characteristic curve) 曲线下与坐标轴围成的面积, 其中, ROC 是以二分类方式 (分界值或决定阈), 以真阳
性率为纵坐标, 假阳性率为横坐标绘制的曲线.

3.2 实验设置
本文实验在 Ubuntu 16.04, NVIDIA RTX 2080Ti GPU 上用 Python 3.7 在 PyTorch 平台上运行. 实验过程中, 网
络使用批尺寸 (batch size) 为 256 的数据训练模型, 训练 120 代, 采用 Adam 对模型进行优化, 其初始学习率设置
为 0.001, 收缩因子为 0.95, 遗忘因子为 0.05. 为了与其他主流算法进行公平对比, 本文按照文献 [5−7,9,16–18] 的
方法采用 CPN (cascaded pyramid network) [19] 对 Human3.6M 数据集进行 2D 姿态估计, 并将其作为网络的输入进
行 3D 姿态估计; 同时, 遵循文献 [12,15,20−23] 的方法以 MPI-INF-3DHP 数据集的 2D 姿态真实值作为网络的输入.
3.3 实验结果分析

3.3.1 消融实验分析
本节通过消融实验验证所提出网络各模块对网络整体性能的影响, 所有消融实验都在 Human3.6M 数据集上
执行, 采用 CPN 作为 2D 姿态估计检测的检测器, 并使用 Protocol #1 作为性能评价指标.
● 各模块性能分析: 为了分析网络各组成模块对模型性能的影响, 本文将 PMST-GNet 网络的每一部分从整体
框架中剥离出来, 通过与未使用各模块的算法进行对比实验分析其对 3D 姿态估计模型的影响. 如表 1 所示, 使用
vanilla GCN 即文献 [8] 中提出的原始 GCN 代替 DDA-STGConv 作为主干网络的构成单元, 其 MPJPE 为 92.5 mm.
从表 1 中可以看出, 用本文所设计的 DDA-STGConv 为基本单元构建主干网络, 其 MPJPE 降低到 47.7 mm, 验证
了 DDA-STGConv 卷积操作性能优于原始的 GCN 卷积, 这证明了从时间和空间维度出发对骨架关节点信息进行
基于自约束和注意力机制约束的建模可以提升模型特征表示的能力, 从而增强网络的性能. 在此基础上, 进一步添
加 MFEB 模块, 实现了平行子图网络之间多尺度信息的交互, 挖掘骨架关节之间的上下文信息, MPJPE 降低到
45.6 mm, 这一结果验证了加强不同尺度特征的交互有利于提升网络模型特征的表达能力. 如表 1 所示, 通过添加
更多的模块到主干网络中, 本文所提出的网络模型性能得到稳步提高, 这进一步验证了本文网络设计的合理性.

表 1 网络各组成模块性能分析

方法 MPJPE (mm)
模型1 (vanilla GCN) 92.5
模型2 (DDA-STGConv) 47.7
模型3 (DDA-STGConv + MFEB) 45.6

对角占优的时空注意力图卷积 (DDA-STGConv) 对网络模型性能影响分析: 为了分析本文所设计的 DDA-STGConv
对网络性能的影响, 如表 2 所示, 使用 vanilla GCN 中的原始 GCN 代替 DDA-STGConv 模块, 其 PMST-GNet 模型
中所有层使用固定的邻接矩阵 A 进行节点特征的聚合, 其 MPJPE 为 60.4 mm. 在此基础上, 本文构造时空域邻接

253 254 255 256 257 258 259 260 261 262 263