Page 464 - 《软件学报》2024年第4期
P. 464

2042                                                       软件学报  2024  年第  35  卷第  4  期


                 围框, 进而求取真值包围框和预测包围框的高斯分布之间的                      KL  散度. 基于  KL  散度计算设计损失函数        KLD
                 (Kullback-Leibler divergence), 如公式  (1).
                                                    2                2
                                     (∆xcos ˆ θ k +∆ysin ˆ θ k )  (∆ycos ˆ θ k −∆xsin ˆ θ k )
                                                                                    ˆ
                               KLD =                 +                +ln( ˆw k /(2λ))+ln(h k /(2λ))  (1)
                                         2 ˆw /(2λ) 2      2h /(2λ) 2
                                           2
                                                            ˆ 2
                                           k
                                                             k
                 其中,   ∆x = x k − ˆx k ∆y = y k − ˆy k λ 表示包围框扩展系数. 根据高斯分布的  3-Sigma 法则, 设置  λ =3, 进而通过实验获
                                         .
                               ,
                                                 λ =3 的合理性, 详见表    1. 损失函数  KLD           ˆ  而不是      h k  ,
                 得  λ 取值与关键点覆盖率的关系验证设置                                          中选用   ˆ w k  和  h k  w k  和
                                                               (∆xcos ˆ θ k +∆ysin ˆ θ k )  越大, 则最小化  KLD  ˆ w 2
                                                                             2
                 训练过程中根据包围框预测误差调整损失, 例如, 预测误差                                                  的过程中
                                                                                                        k
                 越大, 将促使包围框尽可能覆盖当前关键点.

                                                                                  Grid  1×1 C
                                                                                                L 0
                                                                                 sampling
                                                                                           ˆ
                                                                                              ˆ
                                                                                         ˆ
                                                                                       ˆ
                                           1×1 CBR     BB×1       1×1 C                (μ 0 , w 0 , h 0 , θ 0 )
                                                  Channel=32         Classification map
                                Backbone                                      NMS
                                      X
                                                       BB×2       1×1 C
                                                                                             ˆ
                                                                                           ˆ
                                                                                       ˆ
                                                                                         ˆ
                                           1×1 CBR                                     (μ k , w k , h k , θ k )
                                                   Channel=256           Box map  Grid   1×1 C
                                                                                 sampling       L k
                                     1×1 CBR: 1×1 Conv+BatchNorm+ReLU  BB: BasicBlock  1×1 C: 1×1 Conv
                                              图 2 关键点区域提议 (KRPM       模块)


                                            表 1    包围框扩展系数取值与关键点覆盖率

                                          包围框扩展系数                  关键点覆盖率 (%)
                                              1.0                       42.5
                                              2.0                       81.3
                                              3.0                       92.1

                                       ˆ
                                      ,
                                   ,
                    通过联合优化     ∆x ∆y w k  和   ˆ  预测值  ˆ θ k  , 损失函数  KLD  无需设定包围框旋转角真值  θ k  . KLD  关于   ˆ θ k  的偏导
                                           h k
                 数如公式   (2), 可以看出: (1) 包围框面积不变时,    ˆ w k  和   ˆ  的差值越大, KLD  关于   ˆ θ k  偏导的绝对值越大, 即   ˆ θ k  优化越显著;
                                                        h k
                                   [                            ]
                                       √              √
                                                          2
                                            2
                                                 2
                 (2) 例如,   [cos ˆ θ k ,sin ˆ θ k ] =   ∆x/ (∆x) +(∆y) ,∆y/ (∆x) +(∆y) 2   时, 损失函数  KLD  关于   ˆ θ k  的偏导数为  0, 说明  ˆ θ k  最
                                     T
                 终促使包围框朝向      [∆x,∆y]  .
                                                     
                                     ∂KLD     2  1  1  
                                               
                                                      
                                          = (2λ)    −  (∆xcos ˆ θ k +∆ysin ˆ θ k )(∆ycos ˆ θ k −∆xsin ˆ θ k )  (2)
                                                 ˆ w 2  ˆ 2  
                                      ∂ ˆ θ k    k  h k
                  1.1.3    优化关键点区域
                    为了根据下游任务调整关键点包围框参数, 采用网格采样                   GS (grid sampling) [15] 从特征图  X   (源自骨干网络输
                                                                                            ˆ
                 出) 提取关键点区域特征. 不同于         RoI Align [16] , 网格采样利用下游任务优化关键点包围框        ˆ µ k w k h k  和  ˆ θ k  . 假设候
                                                                                        ,
                                                                                         ˆ  ,
                                         L k ∈ R C L ×H L ×W L                                         X
                 选人体关键点     k 的区域特征为                ,   H L  和  W L  分别表示  L k  的高和宽. 由   L k  的像素位置  α L  计算特征图
                                                           T
                 对应的采样位置      α X  , 如公式  (3),   [(W L −1)/2,(H L −1)/2]  表示  L k  中心坐标.
                                                                                   
                                        cos ˆ θ k  −sin ˆ θ k    ˆ w k /W L  0      (W L −1)/2 
                                                                                  
                                                       
                                                                          
                               α X = ˆµ k +                           α L −                 (3)
                                                                                         
                                                       
                                                                          
                                                                ˆ                   
                                         sin ˆ θ k  cos ˆ θ k  0   h k /H L     (H L −1)/2
   459   460   461   462   463   464   465   466   467   468   469