Page 257 - 《软件学报》2025年第5期
P. 257
杨红红 等: 基于平行多尺度时空图卷积网络的三维人体姿态估计算法 2157
子网络中不同尺度的特征, 经过 MFEB 模块融合后的特征表示为:
X (l+1) = P({ ˜ X (l+1) : k = 1,2,3,4}) (10)
k k
其中, P(·) 为多尺度特征融合函数, 其通常为求和函数或者级联函数. 不管是求和函数还是级联函数, 在多尺度特
征融合中仅仅是对特征进行了聚合, 没有考虑平行子图网络中多尺度特征之间的信息交互. 根据文献 [13], 加强不
同尺度特征的交互对于提升网络模型特征的表达能力非常重要, 因此, 本文对公式 (10) 进行如下改进, 提出多尺
度特征交叉融合模型:
K
X (l+1) = Cat(P( ˜ X (l+1) ,k) : k = 1, ...,K) (11)
k i
i=1
(l+1) (l+1)
conv 3×3 ( ˜ X ,k)+ ˜ X
i k
,G = (V i ∩V k ,E i ∩E i ),i < k (12a)
P( ˜ X (l+1) 2 i
i ,k) =
(l+1)
˜ X ,G = (V i ∪V k ,E i ∪E i ),i > k (12b)
i i
其中, P( ˜ X (l+1) ,k) 为特征尺度转换函数, 其分别采用上下采样函数, 将特征 ˜ X (l+1) 从尺度 i 转换到尺度 k. 如图 4 所示,
i i
不同尺度的特征经过 P( ˜ X (l+1) ,k) 后, 将获得的多尺度特征进行级联 Cat(·) , 然后进行 1×1 的卷积映射以对特征大小
i
进行调整. 在此, 当 i < k 时, P(·) 为下采样函数, 其首先对两个尺度的图拓扑关节点进行如公式 (12a) 的合并, 然后
对 ˜ X (l+1) 执行 3×3 卷积操作, 最后, 对合并的关节特征求平均获得尺度 i 中节点转换到尺度 k 中所对应的节点特征;
i
当 i > k 时, P(·) 为上采样函数, 其首先根据公式 (12b) 合并两个尺度的图拓扑关节点, 然后执行最近邻上采样操作,
通过对 i 尺度子图网络中节点特征进行复制, 获得对应 k 尺度子图网络中相应的节点特征.
X (1) X (2) X (3) X (4)
1 1 1 1
X l
M(·) k−1
G 1
P(·)
F(·) X (2) X (3) X (4)
2 2 2
M(·) G 2 Conv 1×1 (l+1)
X (3) X (4) X l C X k
F(·) 3 3 k
DDA-STGConv
M(·) G 3 多尺度融合函数
邻接尺度图拓扑聚合函数F(·) P(·)
F(·) (4)
X
4
同尺度图拓扑合并函数M(·) X l C 特征级联操作
M(·) G 4 k+1
图 3 平行多尺度子网络模块 (PM-SubGNet) 图 4 多尺度特征交叉融合模块 (MFEB)
2.3 整体网络结构
如前文图 1 所示, 本文所提出的平行多尺度时空图卷积网络模型 (PMST-GNet), 主要由以对角占优的时空注
意力图卷积 (DDA-STGConv) 为基本单元的平行多尺度时空图卷积模块 (PM-SubGNet) 和多尺度特征交叉融合模
块 (MFEB) 两部分堆叠组成. 首先, 将输入 2D 骨架关节信息进行预处理操作, 然后根据所设计的图拓扑聚合函数,
计算不同尺度的图拓扑结构, 以此构造平行多尺度子网络模块. 第 1 阶段的子网络模型由 4 个 DDA-STGConv 层
组成, 每层包含 BN 层和 ReLU 层, 网络的第 2–4 阶段分别由 3, 2, 1 个 DDA-STGConv 层组成, 每层包含 BN 层和
ReLU 层. 每个 DDA-STGConv 层后都跟随一个 MFEB 模块, 实现多尺度特征的交叉融合. 最后, 使用第 1 阶段的
高分别率特征进行 3D 关节点回归, 附加 1×1 全连接层, 调整输出维度, 进而预测 3D 关节点位置信息. 在此, 使用
ℓ 2 函数作为网络训练中的损失函数, 测量预测的 3D 关节点位置信息与真实值之间的误差.
3 实验与结果分析
为了测试本文所提出网络在 3D 人体姿态估计上的性能, 选用两个主流的 3D 数据集: Human3.6M [14] 和 MPI-
INF-3DHP [15] 对所提出的网络性能进行分析. 首先, 为了验证本文网络中各模块对模型性能的影响, 在 Human3.6M
数据集上进行详细的消融实验. 然后, 将本文算法与其他主流的 3D 姿态估计算法进行比较分析.