Page 470 - 《软件学报》2024年第4期
P. 470

2048                                                       软件学报  2024  年第  35  卷第  4  期


                                                                                                       F
                    场景上下文提取网络涉及图像深度建模及特征映射模块, 它们的超参数包括: 绝对深度个数                              N D  , 图像特征
                 的通道数   C F  , 场景特征   B  的通道数目  C B  , 它们对模型精度和计算复杂度的影响如图          11  所示. 为平衡模型性能和
                              ,
                 计算复杂度,    N D C F  和  C B  分别设置为  32, 16, 32.

                     82.6                 90     83.0                75     83.0                 72.35
                     82.4                 85     82.5                74     82.5                 72.30
                                                 82.0
                    3DPCK rel  82.2       80  GFLOPs  3DPCK rel  81.5  73  GFLOPs  3DPCK rel  82.0  72.25  GFLOPs
                                                                     72
                     82.0
                                          75
                                                 81.0
                                                                                                 72.20
                                                                            81.5
                                                                     71
                                          70
                     81.8
                                                 80.0
                     81.6                 65     80.5                70     81.0                 72.15
                          16    32    64 (C L )       16    32   64 (C G )        5     9    13 (W L H L )
                                     GFLOPs                      GFLOPs                      GFLOPs
                           3DPCK rel                   3DPCK rel                  3DPCK rel
                         (a) C L  对模型性能的影响          (b) C G  对模型性能的影响         (c) W L  和 H L  对模型性能的影响
                                  83.0                 73.0    82.6                 72.25
                                  82.5                         82.4
                                  82.0                 72.5    82.2                 72.20
                                 3DPCK rel  81.0       72.0  GFLOPs  3DPCK rel  82.0  72.15  GFLOPs
                                  81.5
                                  80.5
                                  80.0                 71.5    81.8                 72.10
                                  79.5                 71.0    81.6                 72.05
                                       17    25    33 (W G H G )     1     2    3   次数
                                                  GFLOPs                        GFLOPs
                                        3DPCK rel                   3DPCK rel
                                    (d) W G  和 H G  对模型性能的影响  (e) 人体上下文提取次数对模型性能的影响
                                       图 10 人体上下文提取网络的超参数与             HSC-Pose 性能

                       45                  85     45                  78     45                 80
                      3DPCK abs  44     显存溢出  80  GFLOPs  3DPCK abs  44  显存溢出  77  GFLOPs  3DPCK abs  44  显存溢出  78  GFLOPs
                                                                             43
                                                                                                76
                                           75
                       43
                                                                      76
                                                  43
                       42                  70     42                  75     42                 74
                            16   32    64 (N D )       8    16    32 (C F )      16    32   64 (C B )
                                       GFLOPs                    GFLOPs                     GFLOPs
                            3DPCK abs                  3DPCK abs                 3DPCK abs
                          (a) N D  对模型性能的影响          (b) C F  对模型性能的影响         (c) C B  对模型性能的影响
                                       图 11 场景上下文提取网络的超参数与             HSC-Pose 性能

                  3.2   实验数据和评价指标
                    本文选择    COCO [26] , MuCo-3DHP/MuPoTS-3D [27] 和  Human3.6M [28] 数据集评估模型性能. COCO  为  2D  人体姿
                 态估计数据集, 训练集约       57 000  张图像. MuCo-3DHP/MuPoTS-3D  是多人  3D  姿态估计数据集, MuCo-3DHP    为训
                 练集, MuPoTS-3D  为测试集. MuPoTS-3D  包括  20  个视频序列   (约  8 000  视频帧). Human3.6M  是室内场景  3D  人体
                 姿态估计数据集, 包括       11  名受试者  (S1–S11) 的姿态数据. Human3.6M  训练集由   S1, S5, S6, S7  和  S8  这  5  个受试
                 者数据组成, 测试集由      S9  和  S11  两个受试者数据组成.
                    MuCo-3DHP/MuPoTS-3D  的评价指标为     3DPCK ab 和 s  3DPCK rel , 分别用于评估绝对和相对  3D  人体姿态估计
                 的精度. 3DPCK (percentage of correct 3D keypoint) 计算如公式  (13).
                                                          ∑
                                                            (      ) 
                                                           ϕ e pi > 150 
                                                                    
                                                                    /
                                                                     ∑
                                                      ∑             
                                                          p         
                                                                    
                                                                        1                          (13)
                                              3DPCK =        ∑      
                                                                    
                                                                    
                                                               1    
                                                                    
                                                       i              i
                                                                    
                                                               p
                 其中,    e pi  表示姿态   p 中关键点  i 与对应真值间的欧氏距离   (mm),   ϕ(·) 表示克罗内克函数.
                    Human3.6M  的评价指标为     MPJPE (mean per joint position error), P-MPJPE (procrustes analysis MPJPE) 和
                 MRPE (mean root position error), MPJPE  评估相对深度下的关键点定位误差; P-MPJPE   评估相对深度下的姿态对
                 齐关键点定位误差; MRPE       评估绝对深度下的人体根关键点定位误差. 误差指关键点真值与估值的欧氏距离, 以毫
   465   466   467   468   469   470   471   472   473   474   475