Page 471 - 《软件学报》2024年第4期
P. 471

何建航 等: 基于人体和场景上下文的多人            3D  姿态估计                                        2049


                 米  (mm) 为单位.
                  3.3   模型训练
                    输入图像高度和宽度分别缩放为            512  和  832. 训练数据按  1:1  混合  COCO 中的  2D  姿态数据和  MuCo-3DHP
                 或  Human3.6M  中的  3D  姿态数据. 批量大小  (batch size) 设置为  24, 训练  30  个 epoch, 学习率初始值为  1E–3, 在第
                 10  和  20  个  epoch  时分别降至  1E–4  和  1E–5. HSC-Pose 网络整体损失函数如公式  (14), 场景上下文提取网络的损
                      loss Scene  如公式  (15).
                 失函数
                                                    loss = loss Scene +loss NR                       (14)
                                              loss Scene = loss DFL + loss BEV +0.03loss z           (15)
                                 loss DFL  , 如公式           loss BEV  使用  L2  损失函数计算场景热图真值和预测值间的
                 其中, 深度分布损失                  (6); 鸟瞰热图损失
                 误差; 根关键点绝对深度损失         loss z  使用  Smooth-L1  损失函数计算根关键点绝对深度的预测误差.
                    人体上下文提取网络的损失函数            loss NR  , 如公式  (16).
                                      loss NR = loss C +loss heatmap +0.03(loss box +loss box_refine +loss J )  (16)

                 其中, 中心分类图     loss C  和关键点热图  loss heatmap  用  L2  损失函数; 关键点包围框图谱  loss box  和优化关键点包围框
                 loss box_refine  用损失函数  KLD, 如公式  (1); 相对深度下  3D  姿态估计  loss J  用  Smooth-L1  损失函数.
                  3.4   消融实验
                    在  MuPoTS-3D  测试集上进行消融实验, 分别评估人体上下文提取网络组件和场景上下文提取网络组件对模
                 型  HSC-Pose 性能的影响.
                  3.4.1    人体上下文消融实验
                    消融实验分两组: HDM       的组件与    HSC-Pose 性能; PKRM  的组件与    HSC-Pose 性能. HDM  包括  KRPM, GS
                 和  KLD. 不同于使用人体包围框和        RoI Align  的基准模型, KRPM  不涉及关键点包围框真值, 无法选用常规损失
                 函数进行消融实验; 网格        GS  自带监督学习能力; KLD      是本文设计的损失函数. 所以关于            HDM  的消融实验分
                                                             l
                 5  组, 见表  2. GS  实验: 较基准性能, HSC-Pose 的  3DPCK re 基本一致, 因为此时仍然使用人体包围框, 包含大量背
                 景噪声. KRPM+GS    和  KRPM+KLD  实验: 较基准性能, 模型       HSC-Pose  的  3DPCK re 分别提高  0.4%  和  0.7%,
                                                                                    l
                 KRPM+KLD+GS  实验: 较基准性能, 提高      1.0%. 实验表明   HDM  提高  HSC-Pose 的性能达   1.0%, 说明  HDM  噪声
                 抑制效果明显.

                       表 2    HDM  的组件与  HSC-Pose 性能             表 3    PKRM  的关系解析组件与    HSC-Pose 性能

                   编号     KRPM     GS     KLD   3DPCK rel  (%)↑               τ =  τ =  τ =    dy 3DPCK rel
                                                              编号 V noise V geo V region  Linear R sp

                    1       -       -      -        80.2                      0.35 0.50 0.75       (%)↑
                    2       -       √      -        80.3       1  -   -   -   -   -   -   -   -    79.1
                    3       √       √      -        80.6       2   √  -   -   -   -   -   -   -    79.9
                    4       √       -       √       80.9       3   √   √  -   -   -   -   -   -    80.2
                    5       √       √       √       81.2       4   √   √   √  -   -   -   -   -    81.1
                                                               5   √   √   √   √  -   -   -   -    81.7
                                                               6   √   √   √  -   √   -   -   -    82.1
                                                               7   √   √   √  -   -   √   -   -    81.5
                                                               8   √   √   √  -   -   -   √   -    82.2
                                                               9   √   √   √  -   -   -   -   √    82.5

                    PKRM  的建模组件含建模姿态关联的关键点关系和剔除弱连接关键点关系; 建模姿态关联的关键点关系的动
                 态关系矩阵涉及噪声特征         V noise , 人体姿态几何特征  V ge 和关键点区域特征      V region , 讨论这些成分对  HSC-Pose 性
                                                            o
                 能的影响, 实验设计依次加入         V noise , V ge 和 o  V region , 见表  3. 较之基准性能  (使用静态关系矩阵  [11] , 实验  1), 实验  2–4
                 的结果表明    HSC-Pose 的  3DPCK re 分别提高  0.8% (实验  2), 1.1% (实验  3) 和  2.0% (实验  4), 说明  V noise , V ge 和
                                                                                                     o
                                            l
   466   467   468   469   470   471   472   473   474   475   476