Page 331 - 《软件学报》2020年第11期
P. 331

3646                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                 为伪像素标注来训练分割网络,因此我们提出了融合算法(算法 2).对于每幅图像,该算法首先计算每个类别注
                 意力图 A c 与显著图 S 的均值 M c ,这样可以补充注意力图中没有被检测到的对象区域;之后,通过设定背景阈值
                 T (实验中, T =  0.2 )来限定一部分像素被标注为背景 M ;最后根据 M c 与 M 获取伪像素标注 M.
                  0 c      0 c                                0 c             0 c
                    算法 2.  融合算法.
                    输入:图像 X 的类别标签 Z;注意力图集合 A={A c },∀c∈Z;显著图 S;背景阈值 T .
                                                                                 0 c
                    输出:像素标注 M.
                    1: Initialize M=zeros(W×H)  //其中,W×H 为图像 X 的尺度
                    2: Initialize M fg =zeros(W×H,|Z|), M  =  zeros (W ×  H  )
                                                 0 c
                    3:  For each semantic label c∈Z do
                    4:    For each pixel p in image X
                                            p
                    5:       M  fg (, )pc =  mean (A S  p )
                                             ,
                                            c
                    6:    End for
                    7:  End for
                    8:  For each pixel p in image X do
                    9:    M max (p)=max(M fg (p,c),axis=2)
                    10:  End for
                    11:  For each pixel p in image X do
                    12:    If  M max  ()p < T   then  M  0 c  () 1p =   //标注背景
                                      0 c
                    13:    End if
                    14:  End for
                    15: Concatenate  M all  = [M  fg ,M  0 c  ]    //合并背景与前景
                    16:  For each pixel p in image X do
                    17:    M(p)=argmaxM all (p)
                    18:  End for
                    最后,利用伪像素标签 M 作为像素标注并训练分割网络,其损失函数为公式(1).分割网络去掉了用于获取
                 注意力图的最后卷积层和全局平均池化层,在倒数第 2 个卷积层之后加入像素分类层(softmax 层).
                 2.5   全连接条件随机场优化分割结果

                    由于分割网络中存在多层池化运算,因此最终的分割输出尺度远小于原始图像的尺度,以至于不能很好地
                 分割出对象的轮廓.为了解决这个问题,我们采用全连接条件随机场模型(dense conditional random fields,简称
                 dense CRF) [48] 优化分割结果.图像 X 的每个像素被当作一个节点,每个节点与其他节点之间是相互连接的,那么
                 像素类别 Y 的能量函数为
                                              E ()Y =  φ  ( )y + ∑  n ∑  ψ  ( ,y y  )                 (6)
                                                               n n′
                                                      n       (, )  n  n′
                 其中,φ(y n )表示为第 n 个像素分配语义类别的惩罚项;ψ(y n ,y n′ )为平滑函数,用于惩罚相邻两个像素的语义标签
                 是否一致.本文定义φ(y n =c)=−log(P(y n =c|X;θ)),即通过分割网络计算得到的第 n 个像素被分配为类别 c(c∈C)的
                 概率.
                    基于 dense CRF 模型  [48] ,ψ(y n ,y n′ )=μ(y n ,y n′ )k(f n ,f n′ ).其中,μ(y n ,y n′ )表示相邻像素之间标注的兼容性,定义为
                                                          ⎧ 1,  if y ≠  y
                                                  μ (,yy  ) = ⎨  n  n′                                (7)
                                                     n  n′
                                                          ⎩ 0, otherwise
                    此外,k(f n ,f n′ )是高斯核函数,f n 与 f n′ 分别为像素 n 及 n′的特征,表示为
                                                ⎛  | S −  S  |  |T −  T  | ⎞  ⎛  | S −  S  | ⎞
                                   kf    ) =  w  exp −  ⎜  n  n′  −  n  n′  ⎟  +  w  exp −  ⎜  n  n′  ⎟  (8)
                                    (, f
                                      n  n′  1  ⎜   2γ  2    2γ  2  ⎟  2     2γ  2
                                                ⎝     α        β         ⎝ ⎠   δ  ⎠
   326   327   328   329   330   331   332   333   334   335   336