Page 464 - 《软件学报》2024年第4期
P. 464
2042 软件学报 2024 年第 35 卷第 4 期
围框, 进而求取真值包围框和预测包围框的高斯分布之间的 KL 散度. 基于 KL 散度计算设计损失函数 KLD
(Kullback-Leibler divergence), 如公式 (1).
2 2
(∆xcos ˆ θ k +∆ysin ˆ θ k ) (∆ycos ˆ θ k −∆xsin ˆ θ k )
ˆ
KLD = + +ln( ˆw k /(2λ))+ln(h k /(2λ)) (1)
2 ˆw /(2λ) 2 2h /(2λ) 2
2
ˆ 2
k
k
其中, ∆x = x k − ˆx k ∆y = y k − ˆy k λ 表示包围框扩展系数. 根据高斯分布的 3-Sigma 法则, 设置 λ =3, 进而通过实验获
.
,
λ =3 的合理性, 详见表 1. 损失函数 KLD ˆ 而不是 h k ,
得 λ 取值与关键点覆盖率的关系验证设置 中选用 ˆ w k 和 h k w k 和
(∆xcos ˆ θ k +∆ysin ˆ θ k ) 越大, 则最小化 KLD ˆ w 2
2
训练过程中根据包围框预测误差调整损失, 例如, 预测误差 的过程中
k
越大, 将促使包围框尽可能覆盖当前关键点.
Grid 1×1 C
L 0
sampling
ˆ
ˆ
ˆ
ˆ
1×1 CBR BB×1 1×1 C (μ 0 , w 0 , h 0 , θ 0 )
Channel=32 Classification map
Backbone NMS
X
BB×2 1×1 C
ˆ
ˆ
ˆ
ˆ
1×1 CBR (μ k , w k , h k , θ k )
Channel=256 Box map Grid 1×1 C
sampling L k
1×1 CBR: 1×1 Conv+BatchNorm+ReLU BB: BasicBlock 1×1 C: 1×1 Conv
图 2 关键点区域提议 (KRPM 模块)
表 1 包围框扩展系数取值与关键点覆盖率
包围框扩展系数 关键点覆盖率 (%)
1.0 42.5
2.0 81.3
3.0 92.1
ˆ
,
,
通过联合优化 ∆x ∆y w k 和 ˆ 预测值 ˆ θ k , 损失函数 KLD 无需设定包围框旋转角真值 θ k . KLD 关于 ˆ θ k 的偏导
h k
数如公式 (2), 可以看出: (1) 包围框面积不变时, ˆ w k 和 ˆ 的差值越大, KLD 关于 ˆ θ k 偏导的绝对值越大, 即 ˆ θ k 优化越显著;
h k
[ ]
√ √
2
2
2
(2) 例如, [cos ˆ θ k ,sin ˆ θ k ] = ∆x/ (∆x) +(∆y) ,∆y/ (∆x) +(∆y) 2 时, 损失函数 KLD 关于 ˆ θ k 的偏导数为 0, 说明 ˆ θ k 最
T
终促使包围框朝向 [∆x,∆y] .
∂KLD 2 1 1
= (2λ) − (∆xcos ˆ θ k +∆ysin ˆ θ k )(∆ycos ˆ θ k −∆xsin ˆ θ k ) (2)
ˆ w 2 ˆ 2
∂ ˆ θ k k h k
1.1.3 优化关键点区域
为了根据下游任务调整关键点包围框参数, 采用网格采样 GS (grid sampling) [15] 从特征图 X (源自骨干网络输
ˆ
出) 提取关键点区域特征. 不同于 RoI Align [16] , 网格采样利用下游任务优化关键点包围框 ˆ µ k w k h k 和 ˆ θ k . 假设候
,
ˆ ,
L k ∈ R C L ×H L ×W L X
选人体关键点 k 的区域特征为 , H L 和 W L 分别表示 L k 的高和宽. 由 L k 的像素位置 α L 计算特征图
T
对应的采样位置 α X , 如公式 (3), [(W L −1)/2,(H L −1)/2] 表示 L k 中心坐标.
cos ˆ θ k −sin ˆ θ k ˆ w k /W L 0 (W L −1)/2
α X = ˆµ k + α L − (3)
ˆ
sin ˆ θ k cos ˆ θ k 0 h k /H L (H L −1)/2