Page 468 - 《软件学报》2024年第4期
P. 468
2046 软件学报 2024 年第 35 卷第 4 期
F ∈ R C F ×(H/4)×(W/4) , 按图像
体, 这种多对一的映射关系存在歧义性. 降维图像特征 X 获得通道数目为 C F 的特征表达
深度分布 D 映射 F 获得 E ∈ R C F ×N D ×(H/4)×(W/4) , 如公式 (7).
E(i,u,v) = D(i,u,v)⊙ F(u,v) (7)
F(u,v) ∈ R C F ×1 E(i,u,v) ∈ R C F ×1 D(i,u,v) ∈ R
其中, 表示图像像素 (u,v) 的特征向量, 表示三维空间 (i,u,v) 处的特征向量,
表示 (u,v) 处于第 i 个 ( i ∈ [0,N D −1] ) 预设绝对深度的概率.
在 X-Y-Z 空间提取场景上下文的计算复杂度为 O(N D ×C F ×H ×W) , 为降低计算复杂度, 纵向压缩 E 并将特征
C B × N D ×(W/4) 的鸟瞰视角场景映射的初始特征. 为了优化像素绝对深度, 上采样
通道由 C F 降维至 C B , 获取形状为
图像深度维度特征获得鸟瞰视角场景映射特征 B ∈ R C B ×2N D ×(W/4) , 提取场景上下文的计算复杂度降为 O(N D ×C B ×W) .
d ∈ [0,2N d −1] 的存在如公式 (8) 所示的关系.
场景深度 z d 与 B 的深度
( )
lnη−lnβ
lnz d = lnβ+d (8)
(2N D −1)
2.1.3 场景上下文提取
利用瀑布带孔空间金字塔 WASP (waterfall atrous spatial pyramid) [24] , 在不同感受野下建模实体间的位置关系,
获得人体间的场景位置, 即提取场景上下文. 瀑布带孔空间金字塔计算如公式 (9).
4
∪
P = Conv 1×1 Conv 3×3 (O l−1 ;r l ) ∪Gap(O 0 ) (9)
l=1
r l 表示带孔率 r 1 r 2 r 3 r 4 分别等于 1, 6, 12,
其中, Conv 1×1 (·) 表示 1×1 卷积, Conv 3×3 (·;r l ) 表示第 l 个 3×3 卷积, ( , , ,
18). O l−1 ∈ R C B ×2N D ×(W/4) 表示第 l−1 个带孔卷积的输出特征; O 0 等于场景映射特征 B ; P ∈ R C B ×2N D ×(W/4) 表示场景上
∪ 表示通道拼接.
下文. Gap(·) 表示全局平均池化.
2.2 多人场景人体绝对深度预测
场景上下文缺失人体高度信息, 根据透视原理, 人体尺度因子与人体绝对深度正相关. 融合人体和场景上下文
预测人体绝对深度具有可行性. 根据第 2.1.2 节的讨论, 如果将 X-Z 平面的场景上下文反映射至 X-Y 平面的人体
上下文进行融合计算, 再次涉及多对一歧义性. 故采用以人体上下文卷积核解码场景上下文的融合算法. 从关键点
E k 中逐实例动态生成人体卷积权重, 如公式 (10).
区域特征
K−1
∪
Ψ = ψ Gap(E k ) (10)
φπ
k=0
1×1 卷积将特征通道数降维至 φ(·) 表示 ReLU 1×1 卷积从人体上下
其中, π(·) 表示 64, 激活函数, ψ(·) 表示通过
Ψ 将场景上下文解码为对应人体的场景热图. 为了降低优化难度, 加快网络收
文提取动态卷积权重 Ψ . 进而利用
敛, 引入相对位置图谱 Q 引导模型聚焦根关键点初始深度的近邻区域. 具体过程如公式 (11).
H b = ζ(P∪Q;Ψ) (11)
其中, H b 表示鸟瞰热图. ζ(·) 利用 Ψ 进行 1×1 卷积, 将人体上下文融入场景上下文. 再采用 soft-argmax 转换场景
ˆ [20] , 并借助公式 ˆ z .
热图为深度坐标 d ∈ R (8) 计算人体绝对深度
Q 指场景中逐像素相对人体位置 (根关键点) 的偏移量分布, 原理过程如图 8 所示. 假设图像像
相对位置图谱
素 (u,v) 代表一个人体, 从深度分布 D 获取像素 (u,v) 的 N D 个预设绝对深度概率分布 D(u,v) ∈ R N D , 则像素 (u,v) 在
(u,d) 计算如公式 (12).
场景中的位置
N D
2N D −1 ∑
(u,d) = u, S i (u,v)×i (12)
(N D −1)
i
其中, S i (u,v) 表示该像素处于第 i 个预设绝对深度的概率.
本文设计融合网络融合人体和场景上下文 [3,4] 预测多人场景人体绝对深度, 从原理上兼顾发挥两种上下文在
预测多人场景人体绝对深度中的作用, 提高人体绝对深度估计的精准性和可靠性. 从技术上回避了反映射产生的
歧义.