Page 252 - 《软件学报》2025年第5期
P. 252
2152 软件学报 2025 年第 36 卷第 5 期
block (MFEB) is designed, by which multi-scale information among PM-SubGNets can interact to improve the feature representation of
GCN, therefore better extracting the context information of skeleton joints. The experimental results on the mainstream 3D HPE datasets
Human3.6M and MPI-INF-3DHP show that the proposed PMST-GNet model has a good effect in 3D HPE and is superior to the current
mainstream GCN-based algorithms such as Sem-GCN, GraphSH, and UGCN.
Key words: 3D human pose estimation (3D HPE); diagonally dominant spatio-temporal attention graph convolution; parallel multi-scale sub-
graph network; multi-scale feature cross fusion
三维人体姿态估计 (3D human pose estimation, 3D HPE) 是计算机视觉研究领域的一个研究热点, 其在行为识
别、异常行为检测、人机交互和智能视频分析等方面具有广泛的应用前景 [1,2] . 3D HPE 的目的是从图像、视频中
估计人体的 3D 关节坐标. 随着深度神经网络的快速发展, 基于深度神经网络的 3D 人体姿态估计研究取得了丰硕
的成果, 但是, 由于遮挡、单视角 2D 到 3D 映射中固有的深度模糊性等不确定因素, 从单目视频图像中估计 3D
人体姿势仍然是一项具有挑战性的任务.
近年来, 基于深度神经网络框架的 3D 人体姿态估计方法主要分为两大主流: (1) 从 RGB 图像直接估计 3D 人
体关节点坐标的方法; (2) 基于两阶段 2D-3D 人体姿态的估计方法. 前者直接从二维输入图像中回归 3D 人体关节
坐标信息. 由于 2D 图像包含丰富的像素信息, 此类方法能够直接从图像中捕获目标原始信息, 但受图像噪声影响
严重且受限于有限的三维标注数据 [3,4] . 基于两阶段的 3D 人体姿态估计方法首先从原始图像中检测人体的 2D 关
节点, 然后进行 2D 到 3D 的投影, 从而获得人体的 3D 关节点坐标信息 [5,6] . 由于 2D 关节点提供了高度抽象的人
体骨架信息, 因此, 此类方法充分利用二维骨骼数据进行 3D HPE, 其不仅有利于摆脱图像噪声的干扰, 而且得益于
动捕设备提供的三维数据进行网络训练.
由于人体骨架的拓扑结构可以自然地建模为图结构, 而图卷积网络 (graph convolution network, GCN) 具有能
够直接处理关节点拓扑图的能力, 其在基于两阶段的 2D-3D 的人体姿态估计研究中得到了广泛的关注. 基于
GCN 的 2D-3D 人体姿态估计算法将 2D 关节点作为图的节点, 将人体关节的自然连接作为图网络的边 [7] . 尽管基
于 GCN 的 2D-3D 人体姿态估计算法取得了较好的 3D 姿态估计结果, 但是, 此类方法仍然存在一定的局限性. 首
先, 单视角 2D-3D 映射中固有的深度模糊性问题, 导致多个不同的三维姿势可以映射到同一个二维骨架, 造成 2D
向 3D 推理时的不确定性. 其次, 大部分基于 GCN 的 2D-3D 人体姿态估计算法采用文献 [8] 中的图卷积网络进行
关节点特征提取, 其通过在单个尺度上构造节点 1 邻域的依赖关系聚合关节特征, 此类构造方法不利于远端关节
点局部和全局信息的聚合. 由于其接收域限定为 1, 一定程度上削弱了网络特征表示的能力, 加之, 在 3D 人体姿态
估计中涉及 2D 到 3D 特征的映射, 其在 2D 关节点估计中微小的误差都将会在三维空间中产生巨大的影响.
研究表明, 从时间和空间维度对骨架关节点信息进行建模, 构建基于 GCN 的时空图卷积网络可以有效捕获关
节点序列复杂的空间结构特征和长时动态特性, 对于消除 3D HPE 中的遮挡和深度模糊性问题至关重要. 然而, 现
有的算法, 如文献 [5−7], 大多采用空域与时域特征串联的框架, 此框架将空域和时域信息同等对待, 且在卷积过程
中具有固定的感受野, 无法有效处理空域与时域特征的不均衡问题, 限制了判别性特征的提取. 因此, 如何有效的
提取骨架关节点序列的时空相关性特征, 对于提升 3D HPE 的性能具有重要意义.
针对上述问题, 本文构造基于平行多尺度时空图卷积网络模型 (parallel multi-scale spatio-temporal graph
convolution network model, PMST-GNet) 的三维人体姿态估计算法. 首先, 对时空图卷积进行改进, 设计对角占优的
时空注意力图卷积 (diagonally dominant spatio-temporal attention graph convolution, DDA-STGConv), 构建跨域时空
邻接矩阵, 从时间和空间维度出发对骨架关节点信息进行基于自约束和注意力机制约束的建模, 通过提升关节点之
间信息的传递来增强节点的特征表达; 其次, 根据人体运动中关节点呈现的相似运动趋势, 设计图拓扑聚合函数, 构
造不同尺度的图拓扑结构, 以 DDA-STGConv 为基本单元构建平行多尺度子网络模块 (parallel multi-scale sub-graph
network, PM-SubGNet), 有效提取骨架关节点的局部和全局特征信息; 最后, 构造多尺度特征交叉融合模块 (multi-scale
feature cross fusion block, MFEB), 实现平行子图网络之间多尺度信息的交互, 进一步提高 GCN 的特征表示能力.
综上所述, 本文的创新点主要有以下 3 点.
(1) 针对传统 GCN 在空域特征和时域特征提取过程中采用串联结构, 无法有效处理空域与时域特征不均衡的