Page 255 - 《软件学报》2025年第5期
P. 255

杨红红 等: 基于平行多尺度时空图卷积网络的三维人体姿态估计算法                                                2155


                                                       (l)
                                                     (l)
                                           X (l+1)  = σ(W X (A ST ⊙M att +A I )),l ∈ [1,...,L]
                                                  1   12      1i      1T  
                                                 A   A   ...  A  ...  A
                                                  S   T       T       T  
                                                                        
                                                
                                                 A 21  A 2  ...  A 2i  ...  A 2T  
                                                                        
                                                  T    S      T       T 
                                                                        
                                                                        
                                                  .   .   .   .   .   .  
                                                  .   .   .   .   .   .  
                                                                        
                                                  .   .   .   .   .   .  
                                                                        
                                           A ST =    j1  j2   j        
                                                 A   A   ...  A  ...  A  jT                       (6)
                                                
                                                  T   T       S       T 
                                                                        
                                                                        
                                                  .   .   .   .   .   .  
                                                                        
                                                  .   .   .   .   .   .  
                                                  .   .   .   .   .   .  
                                                                        
                                                                        
                                                                        
                                                  T1  T2      Ti      T  
                                                 A    A   ...  A  ...  A
                                                   T   T       T       S
                                                      (    )
                                                       QK ⊤
                                           M att = Softmax  √
                                                         d
                                                                               M att  为基于注意力计算的权值矩
                 其中,   A ST  为由  T  帧骨架关节点帧内和帧间连接关系构成的时空域邻接矩阵,
                 阵  [11] ,   d = D l  , Q, K  分别代表当前节点特征与其图拓扑结构中邻域节点特征, 通过对输入特征           X ∈ R D l ×N k   进行线
                                                                                           (l)
                                Q = XW Q , K = XW K , W Q ∈ R D l ×D l , W K ∈ R D l ×D l . A I ∈ R N s ×N s  ⊙ 代
                 性变换获得相应的                                                    为单位矩阵,    N s  为节点的数量,
                 表矩阵的哈达玛积, 其中,       N k  代表多尺度中第   k 个尺度节点的个数, 其具体由第         2.2  节中多尺度结构划分决定.
                    由公式   (6) 可以得出, 通过所构造的     A ST  , 公式  (6) 将公式  (3) 和公式  (5) 中分开执行的时域图卷积和空域图卷积
                 整合在一起. 其中,     A ST  矩阵中主对角线的各元素表示同一帧中不同关节的自然连接构成的邻接矩阵, 称为空域
                          j
                        A {j = 1,...,T} ; 非对角矩阵的各元素表示不同帧中同一关节点在时间维度上的连接, 称为时域邻接矩
                 邻接矩阵
                          S
                   A {i, j = 1,...,T} . 从公式  (6) 可以看出, DDA-STGConv    A ST ⊙M att  自适应的提取不同节点之间的动态
                    ji
                 阵                                            不仅依靠
                    T
                                                                                      A I  突出关节点自身在特
                 关联性, 在节点特征聚合中利用注意力机制衡量不同节点对当前节点的作用, 而且通过
                 征聚合中对不同姿态的影响. 在此, 以             T=3  帧为例, 构建一个包含       3  帧信息的时空域邻接矩阵          A ST3  , 其中
                        1   12  13  
                       A   A   A
                        S   T   T  
                                  
                                 
                 A ST3 =  A 21  A 2  A 23     A ST  的定义, 其由  T  帧骨架关节点帧内和帧间连接关系构成,   A ST  矩阵的主对角线
                      
                                 T   , 根据
                         T  S    
                                  
                        31  32   3  
                        A   A   A
                         T   T    S
                          j                                                                  j
                                                                                                j
                 的各元素    A {1 ⩽ j ⩽ 3}  表示同一帧中不同关节的自然连接构成的邻接矩阵, 称为空域邻接矩阵                    A  ,    为帧索引.
                          S                                                                  S
                                                                                           ji
                 A ST  矩阵的非对角的各元素表示不同帧中同一关节点在时间维度上的连接, 称为时域邻接矩阵                          A {1 ⩽ i, j ⩽ 3}  .
                                                                                           T

                 2.2   平行多尺度时空图卷积网络
                    现有的大多数基于       GCN  的  3D HPE  通过顺序堆叠多个图卷积层进行骨骼关节点特征的提取, 如文献                  [5−7,12],
                 这种单通道串联模型仅对关节点特征进行从低层到高层的传播, 忽略了网络中间层特征在语义信息表征方面的优
                 势, 因此, 受高分辨网络     HRNet 的启发  [13] , 本文设计平行多尺度时空图卷积网络模型           (PMST-GNet).

                 2.2.1    多尺度结构划分
                    由于人体运动是由人体部分关节的移动而形成的, 从而对于不同的动作, 其在同一个部件里的关节点具有相
                 似的运动趋势和轨迹. 因此, 根据人体关节的运动趋势, 本文将人体关节点划分为如后文图                             2  所示的  4  个尺度,
                 k=1  由  17  个原始关节点构成; k=2  将原始关节按骨架层次性划分为           11  个子部件; k=3  通过将  k=2  尺度的  11  个部
                 件关节进一步合并, 获得由人体左臂, 右臂, 躯干, 左腿和右腿关节组成的                   5  个子部件; k=4  尺度在  k=3  的基础上将
                 人体关节划分为由上半身和下半身关节组成的两个子部件. 在此, 虽然人体并不是刚体结构, 由局部到整体的划分
                 并不能保证运动趋势完全一致, 但是在人们日常中表现出的动作以及不同动作中呈现出的姿态, 都会呈现一定的
                 运动趋势, 对于不同的动作, 其在同一个部件里的关节点具有相似的运动趋势和轨迹, 比如, 在行走过程中, 上肢和
                 下肢的多个关节点呈现出相似的运动趋势, 因此, 本文在多尺度划分过程中将运动趋势相似或运动邻域节点划分
                 到一个部件中, 克服关节点物理连接对姿态估计的影响, 通过多尺度图呈现动态变化, 灵活地描述人体姿态的变化.

                 2.2.2    平行多尺度时空注意力图卷积模块
                    根据人体运动中关节点呈现的相似运动趋势, 本文所设计的                    PMST-GNet 模型将人体骨架划分为由细到粗的
                 4  个尺度, 通过设计图拓扑聚合函数, 构造不同尺度的图拓扑结构, 实现不同尺度节点特征的聚合, 有效提取骨架
                 关节点局部和全局的特征信息.
   250   251   252   253   254   255   256   257   258   259   260