Page 257 - 《软件学报》2025年第5期
P. 257

杨红红 等: 基于平行多尺度时空图卷积网络的三维人体姿态估计算法                                                2157


                 子网络中不同尺度的特征, 经过         MFEB  模块融合后的特征表示为:

                                                 X (l+1)  = P({ ˜ X (l+1)  : k = 1,2,3,4})           (10)
                                                   k      k
                 其中,   P(·) 为多尺度特征融合函数, 其通常为求和函数或者级联函数. 不管是求和函数还是级联函数, 在多尺度特
                 征融合中仅仅是对特征进行了聚合, 没有考虑平行子图网络中多尺度特征之间的信息交互. 根据文献                                [13], 加强不
                 同尺度特征的交互对于提升网络模型特征的表达能力非常重要, 因此, 本文对公式                          (10) 进行如下改进, 提出多尺
                 度特征交叉融合模型:

                                                      K
                                               X (l+1)  = Cat(P( ˜ X (l+1) ,k) : k = 1, ...,K)       (11)
                                                k          i
                                                     i=1

                                                       (l+1)  (l+1)
                                                conv 3×3 ( ˜ X  ,k)+ ˜ X
                                                       i      k
                                                                 ,G = (V i ∩V k ,E i ∩E i ),i < k  (12a)
                                               
                                     P( ˜ X (l+1)       2          i
                                        i  ,k) = 
                                               
                                               
                                                 (l+1)
                                                 ˜ X  ,G = (V i ∪V k ,E i ∪E i ),i > k             (12b)
                                                  i   i
                 其中,   P( ˜ X (l+1)  ,k) 为特征尺度转换函数, 其分别采用上下采样函数, 将特征     ˜ X (l+1)  从尺度  i 转换到尺度  k. 如图  4  所示,
                         i                                                i
                 不同尺度的特征经过       P( ˜ X (l+1)  ,k) 后, 将获得的多尺度特征进行级联  Cat(·) , 然后进行  1×1  的卷积映射以对特征大小
                                    i
                 进行调整. 在此, 当    i < k 时,   P(·) 为下采样函数, 其首先对两个尺度的图拓扑关节点进行如公式              (12a) 的合并, 然后
                 对   ˜ X (l+1)  执行  3×3  卷积操作, 最后, 对合并的关节特征求平均获得尺度    i 中节点转换到尺度      k 中所对应的节点特征;
                    i
                 当  i > k 时,   P(·) 为上采样函数, 其首先根据公式  (12b) 合并两个尺度的图拓扑关节点, 然后执行最近邻上采样操作,
                 通过对   i 尺度子图网络中节点特征进行复制, 获得对应             k 尺度子图网络中相应的节点特征.


                              X  (1)  X  (2)  X (3)   X  (4)
                               1       1       1       1
                                                                   X l
                   M(·)                                             k−1
                       G 1
                                                                           P(·)
                         F(·)         X (2)   X  (3)  X  (4)
                                       2       2      2
                             M(·)  G 2                                                 Conv 1×1   (l+1)
                                               X (3)   X (4)       X l            C              X k
                                 F(·)           3       3           k
                        DDA-STGConv
                                     M(·)  G 3                                           多尺度融合函数
                      邻接尺度图拓扑聚合函数F(·)                                       P(·)
                                         F(·)           (4)
                                                       X
                                                        4
                      同尺度图拓扑合并函数M(·)                              X l                  C 特征级联操作
                                            M(·)  G 4              k+1
                     图 3    平行多尺度子网络模块      (PM-SubGNet)           图 4    多尺度特征交叉融合模块        (MFEB)
                 2.3   整体网络结构
                    如前文图    1  所示, 本文所提出的平行多尺度时空图卷积网络模型                (PMST-GNet), 主要由以对角占优的时空注
                 意力图卷积    (DDA-STGConv) 为基本单元的平行多尺度时空图卷积模块               (PM-SubGNet) 和多尺度特征交叉融合模
                 块  (MFEB) 两部分堆叠组成. 首先, 将输入       2D  骨架关节信息进行预处理操作, 然后根据所设计的图拓扑聚合函数,
                 计算不同尺度的图拓扑结构, 以此构造平行多尺度子网络模块. 第                    1  阶段的子网络模型由      4  个  DDA-STGConv  层
                 组成, 每层包含    BN  层和  ReLU  层, 网络的第  2–4  阶段分别由  3, 2, 1  个  DDA-STGConv  层组成, 每层包含  BN  层和
                 ReLU  层. 每个  DDA-STGConv  层后都跟随一个    MFEB  模块, 实现多尺度特征的交叉融合. 最后, 使用第            1  阶段的
                 高分别率特征进行       3D  关节点回归, 附加    1×1  全连接层, 调整输出维度, 进而预测        3D  关节点位置信息. 在此, 使用
                 ℓ 2  函数作为网络训练中的损失函数, 测量预测的           3D  关节点位置信息与真实值之间的误差.

                 3   实验与结果分析
                    为了测试本文所提出网络在           3D  人体姿态估计上的性能, 选用两个主流的            3D  数据集: Human3.6M [14] 和  MPI-
                 INF-3DHP [15] 对所提出的网络性能进行分析. 首先, 为了验证本文网络中各模块对模型性能的影响, 在                      Human3.6M
                 数据集上进行详细的消融实验. 然后, 将本文算法与其他主流的                   3D  姿态估计算法进行比较分析.
   252   253   254   255   256   257   258   259   260   261   262