Page 259 - 《软件学报》2025年第5期

P. 259

杨红红等: 基于平行多尺度时空图卷积网络的三维人体姿态估计算法 2159

T 帧关节的连接关系融合到一个邻接矩阵中, 依靠 2D 卷积提取相应的时空特征, 其所构造的模
矩阵 A ST , 将连续
型 2 获得 49.1 mm 的 MPJPE, 相比模型 1, MPJPE 下降了 11.3 mm. 在模型 2 的基础上, 进一步对 A ST 进行改进, 基
M att 衡量不同
于注意力机制自适应的提取不同节点之间的动态关联性, 在节点特征聚合中利用所计算的权值矩阵
节点对中心节点的作用, 其 MPJPE 下降到 46.5 mm. 此外, 由于不同的动作姿态产生主要依赖于关节点自身, 如
“拍手, 打电话”等动作主要是由上肢胳膊位置关节点决定的, 因此, 关节点自身在特征聚合中具有重要的作用, 所

以, 为了验证关节点自身对特征聚合的影响, 仅以 A I 为邻接矩阵进行节点特征聚合, 其模型 4 获得 52.3 mm
的 MPJPE. 因此, 本文将模型 3 和模型 4 进行融合获得模型 5, 其不仅依靠 A ST ⊙M att 自适应的提取不同节点之间
的动态关联性, 而且通过 A I 突出关节点自身在特征聚合中的作用, 增强节点间的信息交互, 有效地对骨架关节的
时空信息进行建模.

表 2 时空注意力图卷积对网络性能的影响

方法 MPJPE (mm)
模型1 (vanilla GCN) 60.4
模型2 ( A ST ) 49.1
模型3 ( A ST ⊙M att ) 46.5
模型4 ( A I ) 52.3
模型5 ( A ST ⊙M att +A I ) 45.6

平行多尺度子网络模型 (PM-SubGNet) 对网络性能的影响分析: 为了验证多尺度网络对模型 3D 姿态估计性
能的影响, 本文使用文献 [7,8] 中提出的 vanilla GCN 和 SemGConv 代替 DDA-STGConv 作为主干网络的构成单
元构造尺度为 1 的串行图卷积模型, 其实验结果如表 3 所示, 同时, 表 3 给出了以 DDA-STGConv 为主干网络构成
单元构造不同尺度网络模型的性能对比结果, 其根据人体运动中关节点呈现的相似运动趋进行多尺度划分, 通过
图拓扑聚合函数, 构造平行多尺度子网络模块 (PM-SubGNet), 然后利用多尺度特征交叉融合模块 (MFEB) 进行多
尺度特征的融合. 因此, 去除 PMST-GNet 网络模型中的所有多尺度特征交叉融合模块, 仅以 k=1 尺度的关节点构
G 1 . 通过 DDA-STGConv 卷积提取节点特征信息, 所构造的模型仅包含 k=1 尺度的特征信息, 其获
造图拓扑结构
得模型 3 的 MPJPE 为 47.78 mm, 模型 3 的 MPJPE 值优于模型 1 和模型 2. 在此基础上, 逐步引入 k=2 及 k=3 关节
点构造的图拓扑结构, 同样通过 DDA-STGConv 卷积提取节点特征信息, 并利用 MFEB 模块对多尺度特征进行融
合, 相应的网络模型分别表示为模型 4 和模型 5, 从表 3 可以看出, 模型 5 的 MPJPE 值优于模型 2 和模型 3, 达到
了 45.91 mm. 显然, 组合两个尺度的特征模型比仅采用一个尺度的特征模型具有更好的性能, 这是因为 k=1 尺度
缺乏对不同距离邻域关节点特征的描述. 通过对多尺度特征进行融合, 能对不同距离的邻域节点特征进行细粒度
的刻画, 有助于网络性能的提升. 此外, 在模型 5 的基础上, 继续添加 k=4 (左臂、右臂、左腿、右腿和躯干) 和
k=5 (上半身和下半身) 的关节信息, 其实验结果如表 3 所示, 当将 k=4 和 k=5 尺度的关节点引入到网络中时, 其
MPJPE 降低的幅度小于引入 k=2 和 k=3 尺度的节点信息. 这是因为关节点的运动更多的受具有物理连接关节的
影响, 即 k=1、k=2 和 k=3 尺度的邻域关节对运动的影响大于 k=4 和 k=5 尺度的邻域关节点. 此外, 如表 3 所示, 模
型 1–3 为串行网络模型, 模型 4–7 为平行多尺度网络模型, 其模型 1–3 的 MPJPE 值均高于模型 4–7, 进一步证明,
平行时空图卷积网络模型优于串行网络模型, 多尺度特征提取有助于节点特征由粗到细的刻画, 从而提高平行网
络模型的性能.

3.3.2 主流方法对比分析
● Human3.6M 数据集上的实验结果分析: 为了进一步验证本文所提出网络模型的有效性, 将所提出的算法与
近年来主流的 3D 姿态估计算法在 Human3.6M 测试集上进行单目姿态估计对比. 表 4 给出了本文算法与其他主
流算法 [5–7,9,12,16–18,23–32] 在两种不同评价标准下的对比结果. 如表 4 所示, 在输入 T=81 的情况下, 本文算法在
Protocol #1 下的平均 MPJPE 为 45.6 mm, 在 Protocol #2 下的平均 P-MPJPE 为 35.2 mm, 其性能优于具有相同接受
域的大多数主流算法. 与基于时空卷积 GCN 的算法相比, 如文献 [7] 采用 vanilla GConv, 文献 [5] 采用 SemGConv

254 255 256 257 258 259 260 261 262 263 264