Page 465 - 《软件学报》2024年第4期
P. 465
何建航 等: 基于人体和场景上下文的多人 3D 姿态估计 2043
1.2 建模姿态关联的关键点关系
通过模型训练获得的静态关键点关系, 姿态恢复能力明显不足 [11] . 近期基于关键点间的语义相似性获得的动
态关键点关系, 具有姿态变化适应性能够增强模型的姿态恢复能力 [17] . 然而, 当前动态关键点关系建模方法多半
基于包围框描述人体目标, 不涉及关键点区域噪声特征和姿态几何特征等优化因素, 模型的鲁棒性仍然遭受背景
噪声的影响.
本文在建模关键点区域提议的基础上, 综合关键点区域特征, 关键点区域噪声特征和姿态几何特征等因素建
模姿态关联的关键点关系, 能够显式抑制噪声对模型性能的影响. 实现过程分两个步骤: (1) 建模动态关键点关系,
所定义的人体关键点间的关联权重各不相等, 当前关联权重随目标关键点区域特征, 关键点区域噪声特征和姿态
几何特征等的变化而变化. (2) 在动态关键点关系的基础上建模动态稀疏关键点关系, 剔除关联权重低于设定阈值
的关键点关系.
1.2.1 建模动态关键点关系
关键点区域噪声将造成关键点包围框中心偏离关键点, 还将沿关联路径传播, 降低关键点区域特征和关键点
关系的可靠性. 因此, 防止噪声传播是建模动态关键点关系的另一目标. 损失函数 KLD 设计表明: 在同等人体尺度
下, 关键点包围框尺寸越小质量越高, 参见公式 (2). 逐人体规范化关键点包围框获得关键点区域噪声特征 V noise ,
基于 V noise 和 L k 进行关键点关系建模, 降低噪声响应.
但是, 关键点包围框关联关键点的邻近区域, 所提取的关键点区域特征不包含关键点间的位置约束. 为了弥补
这个不足, 采用人体姿态几何特征 (以三维向量 V geo 表示) 描述关键点间的位置约束 (含距离和相对偏移). 逐人体
{ˆµ i − ˆµ k |(i,k) ∈ ε} . 然后将距离集合
计算关键点间的距离和相对偏移, 获得距离集合 {∥ˆµ i − ˆµ k ∥|(i,k) ∈ ε} 和偏移集合
和偏移集合的内容分别拼接成通道数为 K(K −1)/2 的距离特征和通道数为 K(K −1) 的相对偏移特征. 对距离特征
V geo 的引入使建模的关键点关系包
.
和相对偏移特征进行通道拼接获得 V geo ε 表示当前关键点的骨骼连接集合.
含关键点间的空间位置约束.
L k V noise V geo 评估关键点的质量及其对相关关键点关系的贡献, 逐人体执行以下计算: 沿通道拼接当
基于 , ,
,
,
前关键点的 L k V noise V geo 获得相应向量表达, 再采用压缩-激活计算 (squeeze-and-excitation) [18] 获得表达动态关
R dy ∈ R K×K , 其原理过程如图 3 所示.
键点关系的矩阵
压缩-激活
Channel=64 Channel=K×K
GAP ... 1×1CR 1×1C Reshape
Sigmoid
...
R dy
GAP: 全局平均池化 1×1 CR: 1×1 Conv+ReLU 1×1 C: 1×1 Conv
: 关键点区域特征 : 姿态几何特征 : 关键点区域噪声特征
图 3 建模动态关键点关系
1.2.2 动态稀疏关键点关系
采用矩阵 R dy 表达人体动态关键点关系, 当前 R dy 的元素值均处于 (0, 1) 区间. 元素值趋于“1”表示渐强的关键
R dy 中存在为数不少的弱连接关键点关系, 如图 4(b)
点关系, 趋于“0”表示渐弱的关键点关系. 针对实际人体观察到
中的浅灰色关键点关系. 弱连接对恢复当前姿态的正面贡献不大, 却提供了噪声传播途径.
∑
dy
构建 R sp = ω τ f(R dy ,τ) 表达姿态关联的动态稀疏关键点关系, 其中, f(R dy ,τ) 表示小于 τ 的 R dy 元素被置为
τ
∑
0; ω τ 表示加权系数, 满足 ω τ = 1 ; 预设 τ ∈ {0.35,0.5,0.75} . 对于不同姿态, R dy 中元素值趋于“1”的关键点关系
dy
分布各异. 如果将 R sp 退化为固定阈值的关键点关系矩阵, 容易因关键点关系过稀疏或过密集而导致人体姿态估
计欠约束或负迁移. 为此, 利用图 5 所示网络根据当前人体的关键点区域特征, 关键点区域噪声特征和姿态几何特
dy
征动态生成 ω τ 并获得相应的 R sp .