Page 329 - 《软件学报》2020年第11期
P. 329

3644                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                 定位对象的位置.受该方法的启发,本文提出了具有空间类别得分概念和分类/分割共享网络结构的注意力图生
                 成方法,从而避免了额外构建分类网络的过程.此外,考虑到 Simonyan 等人的方法存在梯度减弱或者消失等问
                 题,本次采用空间类别得分对网络中间特征层的导数值作为注意力图,从而可以有效地保留更多的高层语义并
                 获取更加准确的对象位置信息.
                    为了获取图像中对象的注意力图,我们在分割网络最后的卷积层之后再加入一个卷积层(卷积核尺寸为
                 1×1×|C′|,对于 PASCAL VOC 数据集,|C′|=20)和一个全局平均池化层,用于获取图像的|C′|个类别得分.正如 Oqual
                 等人 [47] 将多标签分类问题看作|C′|个独立的二分类问题来训练网络参数,那么当前图像分类任务的损失函数为
                                                             )
                                                       P
                                      Loss  ( ) θ =−  1  ∑  log ( | c X −  1  ∑  log(1 P c X−  ( |  ))  (2)
                                          c     | Z  | cZ      | Z  | c Z
                                                                  ∈
                                                   ∈
                                                 \ ′
                 其中,Z 为图像真实的语义类别集, Z =         CZ 为图像中缺失的语义类别集,P(c|X)为网络预测的类别概率.根据公
                 式(2)训练卷积神经网络,就可以得到每幅图像的类别得分,同时还可以得到|C′|个类别的对象空间位置得分 H.
                 该空间类别得分 H 包含了对象在图像的位置信息,它虽然不能提供精准的对象定位线索,但是它可以在二维空
                 间范围内给出对象在不同位置的类别得分.因此,不同于 Simonyan 等人的方法                     [25] 使用图像类别得分对图像求导
                 数,本文通过阈值化的 H 对中间卷积层的特征求导数.语义类别 c 的空间类别得分 H c 尺度为 w×h,根据设定好的
                 阈值(实验中,threshold=0.8):如果 H  , ij  >  threshold (i∈  {1,2,..., },w j ∈  {1,2,..., })h  ,则 H  , ij  =1;否则 H  , ij  =0.那么 H c 对
                                            c                                   c         c
                                     0
                 第 n 层特征 L n 在激活值 L 的导数为
                                     n
                                                           ∂ H
                                                        n
                                                       V =   c                                        (3)
                                                        c  ∂ L
                                                             n  0 n L
                       n
                                                                                        n
                 其中, V 通过网络反向传递过程计算得到.因为网络的最大池化(max pooling)运算使得 V 的尺度要小于原始
                      c                                                                c
                                                                                   n
                                                    n
                 图像的尺度,所以下一步通过上采样方法将V 恢复为原始图像的尺度(W×H),记为W .那么第 n 层的注意力图
                                                    c                              c
                 A ∈  c n    R W H    ×  , A c n ,,i j  =  max |W c  i ki ,, j  | .其中,k n 表示第 n 层特征的通道(channel)个数,k i 表示第 n 层特征的第 k i 个通道,
                                   n k
                                                     n
                 i,j 分别为二维空间的坐标.最后,将注意力图 A 归一化.
                                                     c
                                                                                          n
                    对于图像的类别标签 Z 中的每个语义类别 c,上述方法都可以生成第 n 层的注意力图 A .为了更准确地区
                                                                                         c
                 分每个类别的注意力图,并且解决不同类别的注意力图相互重叠的问题,我们借鉴了 DCSM 方法                              [45] ,将当前类别
                             n
                 c 的注意力图 A 减去其他语义类别 Z\c 的注意力图,从而去掉其他语义类别的噪声:
                             c
                                            A    ni ,, j  =  max(A n    ,,i j  − ∑  A    ni , , j ,0) [c ≠  c′ ]  (4)
                                             c      cZ     c    c′
                                                    ′∈
                                                                , ij
                    最后整合各个层的注意力图,生成类别 c 的注意力图 A :
                                                               c
                                                 A  , ij  =  1  ∑  tanh(A n    , ,i j )               (5)
                                                  c        nL     c
                                                           ∈
                                                      || L
                 其中,L 为上述方法所采用的网络特征层集合.图 2 描述了注意力图的生成过程.



                                         Fig.2    Procedure of obtaining attention map (AM)
                                                  图 2   注意力图生成过程
   324   325   326   327   328   329   330   331   332   333   334