Page 260 - 《软件学报》2025年第5期
P. 260

2160                                                       软件学报  2025  年第  36  卷第  5  期


                 分别对   3D  人体姿态估计中的关节点进行图卷积操作, 本文所设计的网络获得更小的                         MPJPE  值  (45.6 mm vs.
                                         [5]
                 48.8 mm , 45.6 mm vs. 60.8 mm ). 尽管文献  [5,7] 中的模型根据人体骨架的结构信息设计了特殊的约束条件以满
                       [7]
                 足  3D  人体姿态估计, 但其性能仍低于本文算法. 此外, 将本文算法与其他具有特殊涉及结构的基于                         GCN  的  3D 人
                 体姿态估计算法进行比较, 如文献           [33] 中提出的  UGCN、文献    [17] 中构造的   HGN、文献    [9] 中设计的  HPGCN
                 和文献   [24] 中设计的  GraphSH  网络, 本文算法展示出较好的性能. 进一步验证了本文网络设计的合理性. 在本文
                 所提出的    PMST-GNet 网络中, 其不仅通过设计       DDA-STGConv  卷积层, 从时间和空间维度出发对骨架关节点信
                 息进行基于自约束和注意力机制约束的建模, 增强节点间的信息交互, 有效地对骨架关节的时空信息进行建模. 而
                 且, 以  DDA-STGConv  为基本单元, 通过设计图拓扑聚合函数, 构造不同尺度的图拓扑结构以建立平行多尺度子网
                 络模块, 实现不同尺度节点特征的聚合, 有效提取骨架关节点局部和全局的特征信息. 此外, 构造                            MFEB  模块, 实
                 现平行子图网络之间多尺度信息的交互, 进一步提高网络特征表达的能力. 因此, 如表                          4  所示, 本文所设计的网络
                 表现出较好的     3D  姿态估计性能. 但是, 本文方法的        MPJPE  和  P-MPJPE  均大于文献  [28] 中的值, 这是因为本文方
                 法是一种基于单视角单假设的           3D  姿态估计, 文献   [28] 通过构建多假设生成模型, 提取关键特征的依赖关系, 消除
                 深度模糊和遮挡对姿态估计的影响. 这一现象激励本文在未来的工作中进一步在时空特征提取中引入多假设模
                 型, 提高模型姿态估计的性能. 此外, 文献          [29] 是一种基于纯    Transformer 进行关节时空特征提取的网络模型, 其
                 相比本文模型来说, 能更好利用          Transformer 机制捕捉关节时空域的全局上下文信息, 故而文献               [29] 的实验结果
                 优于本文方法, 但是会带来模型复杂度的增加.

                                             表 3 平行多尺度模型对网络性能的影响

                                                          关节点数目 J
                                尺度k                                                  MPJPE (mm)
                                              17      11      7       5       2
                           模型1 (vanilla GCN)  √       -       -       -       -         92.5
                            模型2 (SemGConv)    √       -       -       -       -        108.6
                              模型3 (k=1)       √       -       -       -       -        47.78
                             模型4 (k=1, 2)     √       √       -       -       -        46.63
                             模型5 (k=1, 2, 3)  √       √       √       -       -        45.91
                            模型6 (k=1, 2, 3, 4)  √     √       √       √       -        45.66
                           模型7 (k=1, 2, 3, 4, 5)  √   √       √       √       √        45.62


                       表 4 单视角模型在      Human3.6M  测试集上基于    Protocol #1 和 Protocol #2  评价指标对比结果  (mm)

                 Protocol    模型        Dir. Disc. Eat Greet Phone Photo Pose Purch. Sit SitD. Smoke Wait WalkD. Walk WalkT. Avg
                         Martinez等人 [25]  51.8 56.2 58.1 59.0  69.5  78.4 55.2 58.1 74.0 94.5  62.3 59.1  65.1  49.4  52.4  62.9
                               [5]
                         Zhao等人  (T =1)  48.2 60.8 51.8 64.0  64.6  53.6 51.1 67.4 88.7 57.7  73.2 65.6  48.9  64.8  51.9  60.8
                           Zou等人 [16]  49.0 54.5 52.3 53.6  59.2  71.6 49.6 49.8 66.0 75.5  55.1 53.8  58.5  40.9  45.4  55.6
                                [9]
                           HPGCN       50.6 57.3 50.1 56.0  59.3  68.4 53.8 54.3 65.3 69.1  56.6 54.5  63.2  50.5  46.2  57.3
                           Liu等人 [26]  46.3 52.2 47.3 50.7  55.5  67.1 49.2 46.0 60.4 71.1  51.1 50.1  54.5  40.3  43.7  52.4
                               [24]
                        GraphSH   (T=64)  45.2 49.9 47.5 50.9  54.9  66.1 48.5 46.3 59.7 71.5  51.4 48.6  53.9  39.9  44.1  51.9
                               [17]
                            HGN        47.8 52.5 47.7 50.5  53.9  60.7 49.5 49.4 60.0 66.3  51.8 48.8  55.2  40.5  42.6  51.8
                   #1
                           Cai等人 [7]   44.6 47.4 45.6 48.8  50.8  59.0 47.2 43.9 57.9 61.9  49.7 46.6  51.3  37.1  39.4  48.8
                              [27]
                        Zeng等人  (T =1)  43.1 50.4 43.9 45.3  46.1  57.0 46.3 47.6 56.3 61.5  47.7 47.4  53.5  35.4  37.3  47.9
                               [12]
                      VideoPose 3D  (T =243) 45.2 46.7 43.3 45.6  48.1  55.1 44.6 44.3 57.3 65.8  47.1 44.0  49.0  32.8  33.9  46.8
                          Chen等人 [18]  41.1 44.2 44.9 45.9  46.5  39.3 41.6 54.8 73.2 46.2  48.7 42.1  35.8  46.6  38.5  46.3
                               [6]
                        GAST-Net  (T=81)  44.3 44.8 41.9 45.2  47.4  54.7 43.6 43.1 56.9 61.0  47.6 43.5  47.1  35.6  34.5  46.1
                               [23]
                       PoseFormer * (T=81)  41.5 44.8 39.8 42.5  46.5  51.6 42.1 42.0 53.3 60.7  45.5 43.3  46.1  31.8  32.2  44.3
                              [28]
                       MHFormer * (T=81)  39.2 43.1 40.1 40.9  44.9  51.2 40.6 41.3 53.5 60.3  43.7 41.1  43.8  29.8  30.6  43.0
   255   256   257   258   259   260   261   262   263   264   265