Page 468 - 《软件学报》2024年第4期
P. 468

2046                                                       软件学报  2024  年第  35  卷第  4  期


                                                                                      F ∈ R C F ×(H/4)×(W/4)  , 按图像
                 体, 这种多对一的映射关系存在歧义性. 降维图像特征                X  获得通道数目为     C F  的特征表达
                 深度分布   D 映射   F 获得  E ∈ R C F ×N D ×(H/4)×(W/4)  , 如公式  (7).
                                                  E(i,u,v) = D(i,u,v)⊙ F(u,v)                         (7)
                     F(u,v) ∈ R C F ×1                  E(i,u,v) ∈ R C F ×1                    D(i,u,v) ∈ R
                 其中,             表示图像像素    (u,v) 的特征向量,              表示三维空间    (i,u,v) 处的特征向量,
                 表示  (u,v) 处于第  i 个  (  i ∈ [0,N D −1] ) 预设绝对深度的概率.
                    在  X-Y-Z  空间提取场景上下文的计算复杂度为           O(N D ×C F ×H ×W) , 为降低计算复杂度, 纵向压缩     E 并将特征
                                           C B × N D ×(W/4) 的鸟瞰视角场景映射的初始特征. 为了优化像素绝对深度, 上采样
                 通道由  C F  降维至   C B  , 获取形状为
                 图像深度维度特征获得鸟瞰视角场景映射特征                B ∈ R C B ×2N D ×(W/4)  , 提取场景上下文的计算复杂度降为  O(N D ×C B ×W) .
                                   d ∈ [0,2N d −1] 的存在如公式  (8) 所示的关系.
                 场景深度   z d  与   B 的深度
                                                             (       )
                                                              lnη−lnβ
                                                   lnz d = lnβ+d                                      (8)
                                                              (2N D −1)
                  2.1.3    场景上下文提取
                    利用瀑布带孔空间金字塔          WASP (waterfall atrous spatial pyramid) [24] , 在不同感受野下建模实体间的位置关系,
                 获得人体间的场景位置, 即提取场景上下文. 瀑布带孔空间金字塔计算如公式                        (9).
                                                                  
                                                       4
                                                    ∪             
                                                                  
                                                                  
                                                    
                                           P = Conv 1×1   Conv 3×3 (O l−1 ;r l )  ∪Gap(O 0 )      (9)
                                                                    
                                                                  
                                                      l=1
                                                                     r l  表示带孔率  r 1 r 2 r 3 r 4  分别等于  1, 6, 12,
                 其中,   Conv 1×1 (·) 表示  1×1 卷积,   Conv 3×3 (·;r l ) 表示第  l 个   3×3 卷积,    (    ,     ,     ,
                 18).   O l−1 ∈ R C B ×2N D ×(W/4)   表示第  l−1 个带孔卷积的输出特征;   O 0  等于场景映射特征   B ;   P ∈ R C B ×2N D ×(W/4)   表示场景上
                                          ∪  表示通道拼接.
                 下文.    Gap(·) 表示全局平均池化.
                  2.2   多人场景人体绝对深度预测
                    场景上下文缺失人体高度信息, 根据透视原理, 人体尺度因子与人体绝对深度正相关. 融合人体和场景上下文
                 预测人体绝对深度具有可行性. 根据第            2.1.2  节的讨论, 如果将   X-Z  平面的场景上下文反映射至        X-Y  平面的人体
                 上下文进行融合计算, 再次涉及多对一歧义性. 故采用以人体上下文卷积核解码场景上下文的融合算法. 从关键点
                        E k  中逐实例动态生成人体卷积权重, 如公式          (10).
                 区域特征
                                                                 
                                                            K−1
                                                         ∪       
                                                                 
                                                                 
                                                  Ψ = ψ     Gap(E k )                          (10)
                                                       φπ
                                                                    
                                                                 
                                                            k=0
                             1×1  卷积将特征通道数降维至           φ(·) 表示  ReLU                   1×1  卷积从人体上下
                 其中,    π(·) 表示                      64,            激活函数,    ψ(·) 表示通过
                                            Ψ  将场景上下文解码为对应人体的场景热图. 为了降低优化难度, 加快网络收
                 文提取动态卷积权重        Ψ  . 进而利用
                 敛, 引入相对位置图谱      Q 引导模型聚焦根关键点初始深度的近邻区域. 具体过程如公式                    (11).
                                                      H b = ζ(P∪Q;Ψ)                                 (11)
                 其中,    H b  表示鸟瞰热图.  ζ(·) 利用  Ψ 进行  1×1 卷积, 将人体上下文融入场景上下文. 再采用         soft-argmax  转换场景
                              ˆ   [20] , 并借助公式                 ˆ z  .
                 热图为深度坐标      d ∈ R           (8) 计算人体绝对深度
                                Q 指场景中逐像素相对人体位置          (根关键点) 的偏移量分布, 原理过程如图           8  所示. 假设图像像
                    相对位置图谱
                 素  (u,v) 代表一个人体, 从深度分布     D 获取像素   (u,v) 的   N D  个预设绝对深度概率分布   D(u,v) ∈ R N D   , 则像素  (u,v) 在
                            (u,d) 计算如公式  (12).
                 场景中的位置
                                                              N D      
                                                       2N D −1  ∑      
                                                                       
                                                (u,d) =  u,    S i (u,v)×i                       (12)
                                                        (N D −1)
                                                                       
                                                                i
                 其中,    S i (u,v) 表示该像素处于第  i 个预设绝对深度的概率.
                    本文设计融合网络融合人体和场景上下文               [3,4] 预测多人场景人体绝对深度, 从原理上兼顾发挥两种上下文在
                 预测多人场景人体绝对深度中的作用, 提高人体绝对深度估计的精准性和可靠性. 从技术上回避了反映射产生的

                 歧义.
   463   464   465   466   467   468   469   470   471   472   473