Page 465 - 《软件学报》2024年第4期
P. 465

何建航 等: 基于人体和场景上下文的多人            3D  姿态估计                                        2043


                  1.2   建模姿态关联的关键点关系
                    通过模型训练获得的静态关键点关系, 姿态恢复能力明显不足                     [11] . 近期基于关键点间的语义相似性获得的动
                 态关键点关系, 具有姿态变化适应性能够增强模型的姿态恢复能力                      [17] . 然而, 当前动态关键点关系建模方法多半
                 基于包围框描述人体目标, 不涉及关键点区域噪声特征和姿态几何特征等优化因素, 模型的鲁棒性仍然遭受背景
                 噪声的影响.
                    本文在建模关键点区域提议的基础上, 综合关键点区域特征, 关键点区域噪声特征和姿态几何特征等因素建
                 模姿态关联的关键点关系, 能够显式抑制噪声对模型性能的影响. 实现过程分两个步骤: (1) 建模动态关键点关系,
                 所定义的人体关键点间的关联权重各不相等, 当前关联权重随目标关键点区域特征, 关键点区域噪声特征和姿态
                 几何特征等的变化而变化. (2) 在动态关键点关系的基础上建模动态稀疏关键点关系, 剔除关联权重低于设定阈值
                 的关键点关系.
                  1.2.1    建模动态关键点关系
                    关键点区域噪声将造成关键点包围框中心偏离关键点, 还将沿关联路径传播, 降低关键点区域特征和关键点
                 关系的可靠性. 因此, 防止噪声传播是建模动态关键点关系的另一目标. 损失函数                        KLD  设计表明: 在同等人体尺度
                 下, 关键点包围框尺寸越小质量越高, 参见公式              (2). 逐人体规范化关键点包围框获得关键点区域噪声特征                  V noise  ,
                 基于  V noise  和  L k  进行关键点关系建模, 降低噪声响应.
                    但是, 关键点包围框关联关键点的邻近区域, 所提取的关键点区域特征不包含关键点间的位置约束. 为了弥补
                 这个不足, 采用人体姿态几何特征           (以三维向量    V geo  表示) 描述关键点间的位置约束      (含距离和相对偏移). 逐人体
                                                                              {ˆµ i − ˆµ k |(i,k) ∈ ε} . 然后将距离集合
                 计算关键点间的距离和相对偏移, 获得距离集合                {∥ˆµ i − ˆµ k ∥|(i,k) ∈ ε} 和偏移集合
                 和偏移集合的内容分别拼接成通道数为              K(K −1)/2 的距离特征和通道数为       K(K −1) 的相对偏移特征. 对距离特征
                                                                             V geo  的引入使建模的关键点关系包
                                                 .
                 和相对偏移特征进行通道拼接获得             V geo ε 表示当前关键点的骨骼连接集合.
                 含关键点间的空间位置约束.
                        L k V noise V geo  评估关键点的质量及其对相关关键点关系的贡献, 逐人体执行以下计算: 沿通道拼接当
                    基于     ,     ,
                             ,
                                  ,
                 前关键点的    L k V noise V geo  获得相应向量表达, 再采用压缩-激活计算      (squeeze-and-excitation) [18] 获得表达动态关
                              R dy ∈ R K×K   , 其原理过程如图  3  所示.
                 键点关系的矩阵

                                                         压缩-激活
                                                          Channel=64  Channel=K×K
                                              GAP  ...  1×1CR  1×1C  Reshape
                                                                 Sigmoid
                                            ...
                                                                          R dy
                                          GAP: 全局平均池化  1×1 CR: 1×1 Conv+ReLU 1×1 C: 1×1 Conv
                                           : 关键点区域特征    : 姿态几何特征   : 关键点区域噪声特征
                                                  图 3 建模动态关键点关系

                  1.2.2    动态稀疏关键点关系
                    采用矩阵    R dy  表达人体动态关键点关系, 当前      R dy  的元素值均处于   (0, 1) 区间. 元素值趋于“1”表示渐强的关键
                                                                 R dy  中存在为数不少的弱连接关键点关系, 如图          4(b)
                 点关系, 趋于“0”表示渐弱的关键点关系. 针对实际人体观察到
                 中的浅灰色关键点关系. 弱连接对恢复当前姿态的正面贡献不大, 却提供了噪声传播途径.
                             ∑
                          dy
                    构建  R sp =  ω τ f(R dy ,τ)  表达姿态关联的动态稀疏关键点关系, 其中,      f(R dy ,τ) 表示小于   τ 的  R dy  元素被置为
                               τ
                                     ∑
                 0;   ω τ  表示加权系数, 满足   ω τ = 1  ; 预设  τ ∈ {0.35,0.5,0.75} . 对于不同姿态,   R dy  中元素值趋于“1”的关键点关系
                                dy
                 分布各异. 如果将     R sp  退化为固定阈值的关键点关系矩阵, 容易因关键点关系过稀疏或过密集而导致人体姿态估
                 计欠约束或负迁移. 为此, 利用图        5  所示网络根据当前人体的关键点区域特征, 关键点区域噪声特征和姿态几何特
                                         dy
                   征动态生成  ω τ  并获得相应的  R sp  .
   460   461   462   463   464   465   466   467   468   469   470