Page 258 - 《软件学报》2025年第5期
P. 258

2158                                                       软件学报  2025  年第  36  卷第  5  期


                 3.1   数据集与评价指标
                    Human3.6M 数据集   [14] 是 3D 姿势估计中目前最大、使用最广泛的室内数据集, 包含由               11  个对象, 涉及  15  个
                 日常动作    (如走路、打招呼、拍照、吸烟等) 组成的             360  万帧视频图像. 该数据集分为训练集 S1、S5、S6、S7、
                 S8 和测试集   S9、S11 两部分, 其评价指标主要采用         MPJPE (mean per joint position error) 和  P-MPJPE (procrustes
                 analysis MPJPE). MPJPE (Protocol #1) 是计算所有关节点的估计坐标与真实坐标之间欧氏距离的平均值, 单位为
                 mm, 其侧重于衡量误差结果的绝对性. P-MPJPE (Protocol #2) 是对关节点估计的结果进行刚性变换对齐后的
                 MPJPE, 其更侧重于衡量所估计姿态与真实姿态的误差和两者之间的相似性.
                    MPI-INF-3DHP [15] 数据集是一个同时涉及室内及室外场景更大规模的数据集, 包含使用                    14  个摄像头拍摄的
                 8  人, 涉及  8  个主题的  130  万帧视频图像. 该数据集的评价指标一般采用 MPJPE, 3D PCK (percentage of correct 3D
                 keypoints) 和  AUC (area under curve), 其中, 3D PCK  衡量  3D  关节点的正确率, 当估计的关节点坐标与真实坐标之
                 间的距离小于预定阈值         (通常阈值设置为      150 mm), 则认为估计的关节结果是正确的. AUC            为  ROC (receiver
                 operating characteristic curve) 曲线下与坐标轴围成的面积, 其中, ROC  是以二分类方式     (分界值或决定阈), 以真阳
                 性率为纵坐标, 假阳性率为横坐标绘制的曲线.

                 3.2   实验设置
                    本文实验在     Ubuntu 16.04, NVIDIA RTX 2080Ti GPU  上用  Python 3.7  在  PyTorch  平台上运行. 实验过程中, 网
                 络使用批尺寸     (batch size) 为  256  的数据训练模型, 训练  120  代, 采用  Adam  对模型进行优化, 其初始学习率设置
                 为  0.001, 收缩因子为  0.95, 遗忘因子为   0.05. 为了与其他主流算法进行公平对比, 本文按照文献              [5−7,9,16–18] 的
                 方法采用   CPN (cascaded pyramid network) [19] 对  Human3.6M  数据集进行  2D  姿态估计, 并将其作为网络的输入进
                 行     3D  姿态估计; 同时, 遵循文献  [12,15,20−23] 的方法以  MPI-INF-3DHP  数据集的  2D  姿态真实值作为网络的输入.
                 3.3   实验结果分析

                 3.3.1    消融实验分析
                    本节通过消融实验验证所提出网络各模块对网络整体性能的影响, 所有消融实验都在                             Human3.6M  数据集上
                 执行, 采用  CPN  作为  2D  姿态估计检测的检测器, 并使用        Protocol #1  作为性能评价指标.
                    ● 各模块性能分析: 为了分析网络各组成模块对模型性能的影响, 本文将                      PMST-GNet 网络的每一部分从整体
                 框架中剥离出来, 通过与未使用各模块的算法进行对比实验分析其对                       3D  姿态估计模型的影响. 如表       1  所示, 使用
                 vanilla GCN 即文献  [8] 中提出的原始 GCN  代替 DDA-STGConv 作为主干网络的构成单元, 其          MPJPE  为  92.5 mm.
                 从表  1  中可以看出, 用本文所设计的       DDA-STGConv  为基本单元构建主干网络, 其         MPJPE  降低到  47.7 mm, 验证
                 了  DDA-STGConv  卷积操作性能优于原始的        GCN  卷积, 这证明了从时间和空间维度出发对骨架关节点信息进行
                 基于自约束和注意力机制约束的建模可以提升模型特征表示的能力, 从而增强网络的性能. 在此基础上, 进一步添
                 加  MFEB  模块, 实现了平行子图网络之间多尺度信息的交互, 挖掘骨架关节之间的上下文信息, MPJPE                           降低到
                 45.6 mm, 这一结果验证了加强不同尺度特征的交互有利于提升网络模型特征的表达能力. 如表                           1  所示, 通过添加
                 更多的模块到主干网络中, 本文所提出的网络模型性能得到稳步提高, 这进一步验证了本文网络设计的合理性.

                                                表 1 网络各组成模块性能分析

                                            方法                              MPJPE (mm)
                                       模型1 (vanilla GCN)                       92.5
                                     模型2 (DDA-STGConv)                         47.7
                                  模型3 (DDA-STGConv + MFEB)                     45.6

                    对角占优的时空注意力图卷积          (DDA-STGConv) 对网络模型性能影响分析: 为了分析本文所设计的             DDA-STGConv
                 对网络性能的影响, 如表       2  所示, 使用  vanilla GCN  中的原始 GCN  代替 DDA-STGConv  模块, 其  PMST-GNet 模型
                 中所有层使用固定的邻接矩阵           A 进行节点特征的聚合, 其       MPJPE  为  60.4 mm. 在此基础上, 本文构造时空域邻接
   253   254   255   256   257   258   259   260   261   262   263