Page 251 - 《软件学报》2025年第5期
P. 251
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(5):2151−2166 [doi: 10.13328/j.cnki.jos.007200] [CSTR: 32375.14.jos.007200] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
基于平行多尺度时空图卷积网络的三维人体姿态估计算法
杨红红 1,2 , 刘泓希 1 , 张玉梅 2,3 , 吴晓军 1,2,3
(现代教学技术教育部重点实验室 (陕西师范大学), 陕西 西安 710062)
1
2
(民歌智能计算与服务技术文化和旅游部重点实验室 (陕西师范大学), 陕西 西安 710062)
3
(陕西师范大学 计算机科学学院, 陕西 西安 710062)
通信作者: 张玉梅, E-mail: zym0910@snnu.edu.cn
摘 要: 针对基于图卷积神经网络 (GCN) 的人体姿态估计方法不能充分聚合关节点时空特征、限制判别性特征提
取的问题, 构造基于平行多尺度时空图卷积的网络模型 (PMST-GNet), 提高三维人体姿态估计的性能. 该模型首先
设计对角占优的时空注意力图卷积 (DDA-STGConv), 构建跨域时空邻接矩阵, 对骨架关节点信息进行基于自约束
和注意力机制约束的建模, 增强节点间的信息交互; 然后, 通过设计图拓扑聚合函数构造不同的图拓扑结构, 以
DDA-STGConv 为基本单元构建平行多尺度子网络模块 (PM-SubGNet); 最后, 为了更好地提取骨架关节的上下文
信息, 设计多尺度特征交叉融合模块 (MFEB), 实现平行子图网络之间多尺度信息的交互, 提高 GCN 的特征表示能
力. 在主流 3D 姿态估计数据集 Human3.6M 和 MPI-INF-3DHP 数据集上的对比实验结果表明, 所提 PMST-GNet
模型在三维人体姿态估计中具有较好的效果, 优于 Sem-GCN、GraphSH、UGCN 等当前基于 GCN 网络的主流算法.
关键词: 三维人体姿态估计; 对角占优的时空注意力图卷积; 平行多尺度子网络; 多尺度特征交叉融合
中图法分类号: TP391
中文引用格式: 杨红红, 刘泓希, 张玉梅, 吴晓军. 基于平行多尺度时空图卷积网络的三维人体姿态估计算法. 软件学报, 2025,
36(5): 2151–2166. http://www.jos.org.cn/1000-9825/7200.htm
英文引用格式: Yang HH, Liu HX, Zhang YM, Wu XJ. Parallel Multi-scale Spatio-temporal Graph Convolutional Network for 3D
Human Pose Estimation. Ruan Jian Xue Bao/Journal of Software, 2025, 36(5): 2151–2166 (in Chinese). http://www.jos.org.cn/
1000-9825/7200.htm
Parallel Multi-scale Spatio-temporal Graph Convolutional Network for 3D Human Pose
Estimation
1
1,2
2,3
YANG Hong-Hong , LIU Hong-Xi , ZHANG Yu-Mei , WU Xiao-Jun 1,2,3
1
(Key Laboratory of Modern Teaching Technology (Shaanxi Normal University), Ministry of Education, Xi’an 710062, China)
2
(Key Laboratory of Intelligent Computing and Service Technology for Folk Song (Shaanxi Normal University), Ministry of Culture and
Tourism, Xi’an 710062, China)
3
(School of Computer Science, Shaanxi Normal University, Xi’an 710062, China)
Abstract: As the human pose estimation (HPE) method based on graph convolutional network (GCN) cannot sufficiently aggregate
spatiotemporal features of skeleton joints and restrict discriminative features extraction, in this paper, a parallel multi-scale spatio-temporal
graph convolutional network (PMST-GNet) model is built to improve the performance of 3D HPE. Firstly, a diagonally dominant
spatiotemporal attention graph convolutional layer (DDA-STGConv) is designed to construct a cross-domain spatiotemporal adjacency
matrix and model the joint features based on self-constraint and attention mechanism constrain, therefore enhancing information interaction
among nodes. Then, a graph topology aggregation function is devised to construct different graph topologies, and a parallel multi-scale sub-
graph network module (PM-SubGNet) is constructed with DDA-STGConv as the basic unit. Finally, a multi-scale feature cross fusion
* 基金项目: 国家自然科学基金 (61907028, 11872036); 陕西省青年科技新星项目 (2021KJXX-91); 文化和旅游部重点实验室资助项目
(2023-02, 2022-13); 陕西省自然科学基金面上项目 (2024JC-YBMS-503)
收稿时间: 2022-11-14; 修改时间: 2023-07-20, 2024-01-08; 采用时间: 2024-04-07; jos 在线出版时间: 2024-06-20
CNKI 网络首发时间: 2024-06-21