Page 327 - 《软件学报》2020年第11期
P. 327
3642 Journal of Software 软件学报 Vol.31, No.11, November 2020
能,与目前最先进的方法相比,取得了更好的分割准确率.
1 相关工作
图像语义分割根据其模型训练阶段所使用标注数据的监督程度,分为全监督(fully-supervised)、半监督
(semi-supervised)和弱监督(weakly-supervised).近几年,语义分割的性能在深度卷积神经网络(DCNNs)的帮助下
得到了显著的提升 [8−10] .全监督方法 [29−32] 在训练 DCNNs 时需要大量的像素标注,然而像素标注需要消耗大量的
人力资源和时间.因此,半监督/弱监督语义分割问题受到了很多研究者的重视,并且提出了一些改进的方法.
半监督方法进一步弱化了数据标注的程度,采用 bounding box 标注、点标注、少量像素标注等.Lin 等人 [33]
使用 scribbles 标注(提供对象上少量像素的标签)来训练分割网络.Bearman 等人 [14] 融合了点标注与对象先验信
息.Dai 等人 [34] 使用 bounding box 标注迭代生成对象候选集和训练卷积网络.Papandreou 等人 [35] 借助少量像素
标注提升分割网络的性能.
弱监督是在半监督的基础上再进一步降低数据标注的成本,在仅有图像级标注的情况下训练分割模型.一
些早期的工作 [36,37] 将弱标记语义分割看作为多示例学习(multiple instance learning)问题,即如果图像中至少有
一个像素是正例,那么该图像被看作为正例;如果全部像素都是负例,那该图像也被看作为负例.此外,Pathak 等
人 [19] 在损失函数中加入一些约束项,将分割问题看作约束优化问题.Papandreou 等人 [35] 采用期望最大化
(expectation- maximization)方法交替预测像素类别和优化 DCNNs 参数.Hong 等人 [38] 利用图像数据集之间的知
识迁移性引导目标数据集的分割网络优化过程.Wei 等人 [39] 提出了两个网络的训练策略.然而由于缺乏有效的
对象位置信息,上述方法的分割性能还有很大的提升空间.
目前,一些分割方法 [16,22,40] 通过引入对象位置信息来生成伪像素标注并训练分割网络,其分割性能得到显
著提升.可见:生成的伪像素标注的质量将直接影响分割网络的训练过程,从而影响最后的分割结果.生成伪像
素标注的策略可以分为两类:图像挖掘和区域挖掘.其中,图像挖掘策略侧重图像的整体性,它假设简单的图像
(只有一个类别对象,对象位于图像的中心区域,背景简单)的像素标注可以通过显著图检测 [41] 和共分割(co-
segmentation) [42] 获取.然后利用这些简单图像初步训练分割网络,并预测复杂图像的像素标注.这类方法通常需
要大量额外图像数据,从而增加了数据获取难度.另一类区域挖掘方法 [16,22,43] 通过分类网络生成对于分类任务
具有关键作用的判别性区域,目前被广泛用于生成像素标注的区域挖掘方法 [23−26] 基本采用自顶向下的技术.
Zhou 等人 [23] 将分类网络中的全连接层替换为全卷积层(fully convolutional layer)和全局均值池化层(global
average pooling layer),根据分类损失函数训练网络参数,并获取每个类别的激活图(class activation map,简称
CAM).Zhang 等人 [24] 提出一种新的反向传递法(excitation back propagation),通过网络的反向传递过程识别每个
类别的判别性区域.Simonyan 等人 [25] 同样采用网络反向传递过程,计算类别得分对输入图像的导数,从而获取
判别性的区域信息.Selvaraju 等人 [26] 提出泛化的 CAM 模型.
上述方法中,CAM 模型是应用最广泛的获取对象位置信息的方法 [16,22,43,44] .但是该方法只能识别出对象中
最具判别性的区域,而非完整的对象.为了提高伪像素标注的准确性,Kolesnikov 等人 [16] 通过全局加权
rank-pooling 操作扩展判别性的区域.Wei 等人 [22] 采用对抗擦除的方法,迭代擦除当前最具有判别性的区域,并重
新训练分类网络,最后合并每次擦除的区域用于生成伪像素标注.Kim 等人 [44] 通过两阶段法挖掘出对象的位置
信息.此外,Shimoda 等人 [45] 通过改进 Simonyan 等人的方法 [25] 获取每类对象的判别性区域,并通过条件随机场
优化分割结果.本文将上述各种方法获取的对象判别性区域统称为注意力图.
本文方法同样致力于获取高质量的伪像素标注.受 Simonyan 等人 [25] 的启发,本文提出新的获取对象判别性
区域的方法,称为注意力图(attention map,简称 AM).与其他方法 [22,25,45] 需要使用不同的网络来获取注意力图和
完成分割任务相比,我们使用共享的网络结构,端对端(end-to-end)地为获取注意力图和分割结果训练该网络.与
Hou 等人的方法 [46] 类似,本文同样采用显著图(saliency map,简称 SM)检测(挖掘图像中的前景对象,不具有语义
类别信息)来辅助分割过程.Hou 等人 [46] 只考虑简单的图像(图像只包含单一类别对象),而本文所提出的逐次擦
除法能够挖掘出图像中的多个类别对象.与 Wei 等人的方法 [22] 不同,本文无需擦除检测到的前景对象之后重复