Page 251 - 《软件学报》2025年第5期
P. 251

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(5):2151−2166 [doi: 10.13328/j.cnki.jos.007200] [CSTR: 32375.14.jos.007200]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                                       *
                 基于平行多尺度时空图卷积网络的三维人体姿态估计算法

                 杨红红  1,2 ,    刘泓希  1 ,    张玉梅  2,3 ,    吴晓军  1,2,3


                  (现代教学技术教育部重点实验室        (陕西师范大学), 陕西 西安 710062)
                 1
                 2
                  (民歌智能计算与服务技术文化和旅游部重点实验室             (陕西师范大学), 陕西 西安 710062)
                 3
                  (陕西师范大学 计算机科学学院, 陕西 西安 710062)
                 通信作者: 张玉梅, E-mail: zym0910@snnu.edu.cn

                 摘 要: 针对基于图卷积神经网络          (GCN) 的人体姿态估计方法不能充分聚合关节点时空特征、限制判别性特征提
                 取的问题, 构造基于平行多尺度时空图卷积的网络模型                  (PMST-GNet), 提高三维人体姿态估计的性能. 该模型首先
                 设计对角占优的时空注意力图卷积            (DDA-STGConv), 构建跨域时空邻接矩阵, 对骨架关节点信息进行基于自约束
                 和注意力机制约束的建模, 增强节点间的信息交互; 然后, 通过设计图拓扑聚合函数构造不同的图拓扑结构, 以
                 DDA-STGConv  为基本单元构建平行多尺度子网络模块              (PM-SubGNet); 最后, 为了更好地提取骨架关节的上下文
                 信息, 设计多尺度特征交叉融合模块           (MFEB), 实现平行子图网络之间多尺度信息的交互, 提高               GCN  的特征表示能
                 力. 在主流   3D  姿态估计数据集     Human3.6M  和  MPI-INF-3DHP  数据集上的对比实验结果表明, 所提        PMST-GNet
                 模型在三维人体姿态估计中具有较好的效果, 优于               Sem-GCN、GraphSH、UGCN   等当前基于     GCN  网络的主流算法.
                 关键词: 三维人体姿态估计; 对角占优的时空注意力图卷积; 平行多尺度子网络; 多尺度特征交叉融合
                 中图法分类号: TP391

                 中文引用格式: 杨红红, 刘泓希, 张玉梅, 吴晓军. 基于平行多尺度时空图卷积网络的三维人体姿态估计算法. 软件学报, 2025,
                 36(5): 2151–2166. http://www.jos.org.cn/1000-9825/7200.htm
                 英文引用格式: Yang HH, Liu HX, Zhang YM, Wu XJ. Parallel Multi-scale Spatio-temporal Graph Convolutional Network for 3D
                 Human Pose Estimation. Ruan  Jian  Xue  Bao/Journal  of  Software, 2025, 36(5): 2151–2166 (in Chinese). http://www.jos.org.cn/
                 1000-9825/7200.htm

                 Parallel Multi-scale Spatio-temporal Graph Convolutional Network for 3D Human Pose
                 Estimation
                                           1
                               1,2
                                                         2,3
                 YANG Hong-Hong , LIU Hong-Xi , ZHANG Yu-Mei , WU Xiao-Jun 1,2,3
                 1
                 (Key Laboratory of Modern Teaching Technology (Shaanxi Normal University), Ministry of Education, Xi’an 710062, China)
                 2
                 (Key  Laboratory  of  Intelligent  Computing  and  Service  Technology  for  Folk  Song  (Shaanxi  Normal  University),  Ministry  of  Culture  and
                  Tourism, Xi’an 710062, China)
                 3
                 (School of Computer Science, Shaanxi Normal University, Xi’an 710062, China)
                 Abstract:  As  the  human  pose  estimation  (HPE)  method  based  on  graph  convolutional  network  (GCN)  cannot  sufficiently  aggregate
                 spatiotemporal  features  of  skeleton  joints  and  restrict  discriminative  features  extraction,  in  this  paper,  a  parallel  multi-scale  spatio-temporal
                 graph  convolutional  network  (PMST-GNet)  model  is  built  to  improve  the  performance  of  3D  HPE.  Firstly,  a  diagonally  dominant
                 spatiotemporal  attention  graph  convolutional  layer  (DDA-STGConv)  is  designed  to  construct  a  cross-domain  spatiotemporal  adjacency
                 matrix  and  model  the  joint  features  based  on  self-constraint  and  attention  mechanism  constrain,  therefore  enhancing  information  interaction
                 among nodes. Then, a graph topology aggregation function is devised to construct different graph topologies, and a parallel multi-scale sub-
                 graph  network  module  (PM-SubGNet)  is  constructed  with  DDA-STGConv  as  the  basic  unit.  Finally,  a  multi-scale  feature  cross  fusion


                 *    基金项目: 国家自然科学基金  (61907028, 11872036); 陕西省青年科技新星项目  (2021KJXX-91); 文化和旅游部重点实验室资助项目
                  (2023-02, 2022-13); 陕西省自然科学基金面上项目  (2024JC-YBMS-503)
                  收稿时间: 2022-11-14; 修改时间: 2023-07-20, 2024-01-08; 采用时间: 2024-04-07; jos 在线出版时间: 2024-06-20
                  CNKI 网络首发时间: 2024-06-21
   246   247   248   249   250   251   252   253   254   255   256