Page 326 - 《软件学报》2020年第11期
P. 326

李阳  等:基于对象位置线索的弱监督图像语义分割方法                                                      3641


                 network. A series of comparative experiments demonstrate the effectiveness and better segmentation performance of the proposed method
                 on the challenging PASCAL VOC 2012 image segmentation dataset.
                 Key words:    image semantic segmentation; weakly supervised; deep convolutional neural networks; attention map; saliency map

                    图像语义分割是指利用计算机的特征表达来模拟人类对图像的识别过程,为每个像素分配语义空间中的
                 一个类别.其研究在场景理解、自动驾驶、机器人感知、气象预测、交通控制、人脸识别等领域具有广泛的应
                 用价值.但是由于图像中对象的尺度、位置、光照、颜色等信息具有无穷多的变化形式,所以图像分割是计算
                                            [1]
                 机视觉领域极具挑战性的研究课题 .
                    近年来,以卷积神经网络为代表的深度学习技术                 [2−7] 的重大突破带来了图像语义分割性能的巨大提升               [8−10] .
                 但是,此类方法的分割准确度很大程度上依赖于大量的像素级标注(pixel-level annotation)数据集                     [8−13] .然而,收
                 集这类数据集是一项昂贵和耗时的任务:平均需要耗时 4min 来标注一幅图像中的所有像素                              [14] .此外,这也间接
                 地反映出像素级标注是增强分割模型泛化能力的障碍.
                    为了克服这个问题,一些研究者尝试放宽图像标注的程度,提出了弱监督的语义分割方法                               [15−19] .此类方法仅
                 使用图像级标注(image-level annotation,明确地标注出图像中对象的类别),一方面,图像级标注的数据集更容易
                 获得——平均仅需要 1s 来标注图像中对象的类别                [20] ;另一方面,用于模型拓展的新类别图像集也更容易获取.
                 因此,本文基于图像级标注提出了一种弱监督语义分割方法.
                    近两年,一些弱监督分割方法          [16,21,22] 通过引入有效的对象位置线索,使得其模型的分割性能得到显著地提
                 升.这类方法的计算过程大体分为两个步骤:(1)  基于图像级标注获取对象的位置线索,构建伪像素标注(pseudo
                 pixel-level annotation);(2)  利用伪像素标注训练深度卷积神经网络(deep convolutional neural network,简称
                 DCNN).所谓“伪”像素标注指的是并不是真实的准确的标注,但是它提供了对象在图像中的位置线索.可见,步
                 骤(1)获取的伪像素标注将直接影响最后分割网络的性能.本文同样采用这个计算过程,主要关注如何通过图像
                 级标注生成高质量的伪像素标注.
                    自顶向下策略在弱监督对象定位任务中发挥了很好的性能                      [23−26] ,因此,此类方法也被广泛地用于生成伪像
                 素标注来指导弱监督语义分割任务.本文受 Simonyan 等人                [25] 启发,提出一种新的挖掘对象位置信息的方法,本
                 文称这些具有类别信息的对象线索为注意力图(attention map,简称 AM).Simonyan 等人               [25] 通过计算类别得分对
                 输入图像的导数获取注意力图,其结果并不理想,并且识别出的对象区域较为模糊.本文通过改进该方法,提出
                 了分类与分割共享网络结构的注意力图获取方法.在同一网络结构上,通过计算空间类别得分对网络中间层特
                 征的导数而生成注意力图,从而避免了网络的重复构建过程.本文(1)  采用空间类别得分(图像二维空间上像素
                 的类别得分)对中间层特征求导,在很大程度上保存了对象的空间结构,使得识别出的对象更加完整;(2)  从目标
                 类别注意力图中去除其他类别对象的噪声,生成更明确的目标类别对象位置信息,从而提高像素标注的准确性.
                    注意力图用于推理不同类别对象的位置信息,它挖掘出对于图像分类任务起关键作用的对象判别性区域.
                 然而,虽然本文提出了空间类别得分的概念,但是由于网络中存在连续池化层,使得最后网络输出的尺度要远远
                 小于图像的原始尺度,因此该方法还不足以检测出对象的全部区域,从而注意力图不足以作为伪像素标注训练
                 分割网络.为了解决这个问题,我们借助于显著图检测模型                    [27,28] ,提出逐次擦除法来识别图像的前景对象.显著
                 图与注意力图的区别是:(1)  注意力图上的对象具有语义类别信息;(2)  显著图上的前景对象是类别不可知的,
                 它用于区分背景和前景信息.显著图和注意力图相互补充,并挖掘出对象的完整轮廓.最后,融合注意力图与显
                 著图生成伪像素标注并训练分割网络.相比于其他弱监督图像语义分割方法,本文提出的方法有以下创新点:
                 (1)  提出了一种分类与分割共享网络结构的注意力图获取方法,避免重复构建网络结构,并且该注意力图更具
                 有判别性和准确性;(2)  提出了逐次擦除的显著图获取方法,使得模型在无需重复训练的基础上,能够检测出图
                 像中存在的多个前景对象;(3)  通过融合注意力图与显著图生成高质量的伪像素标注,使得注意力图与显著图
                 的信息相互补充,提供更精准的像素标注,从而提升分割网络的性能;(4)  采用了一个简单有效的计算框架,没有
                 启发式的迭代训练挖掘的过程,从而提升了方法的可扩展性.
                    实验结果表明,本文提出的弱监督图像语义分割方法在 PASCAL VOC 2012 数据集合上表现出很好的性
   321   322   323   324   325   326   327   328   329   330   331