Page 336 - 《软件学报》2020年第11期
P. 336
李阳 等:基于对象位置线索的弱监督图像语义分割方法 3651
从实验结果可以看出,单独使用注意力图作为像素标注并训练分割网络并不能取得分割性能的最大提升
(表 4 中,方法“AM_DeepLab”).而通过融合显著图与注意力图生成的伪像素标注更加准确,从而为分割网络提供
了更有效的信息,指导网络参数学习过程.从表 4 可以看出,最好的分割结果达到 54.88%,比最低的分割结果
41.39%提升了 13.5 个百分点.同时,在表 4 中我们也列出了不同擦除次数下获取的显著图对于最后分割结果的
影响(表 4,第 2 列).从平均 IoU 变化趋势上可以看出,当显著图为 S 2 时(擦除两次),WSS_AM_DeepLab 和 DHSN_
AM_DeepLab 均获得最优的分割效果(分别是 53.39%,54.88%).这个结论与表 2 所反映的实验情况基本相同.图
7 展示了上述实验方法的分割结果,其中最后 1 列为图像的真实分割.
Fig.7 Comparison of segmentation results by using different methods to
obtain the pseudo pixel-level annotations
图 7 使用不同方法获得伪像素级标注的分割结果对比
3.5 与弱监督图像分割方法的比较
本节列出了本文所提方法与其他弱监督方法在 PASCAL VOC 2012 验证集与测试集上的比较结果(表 5).
从表 5 可以看出,当采用 DHSN [28] 的显著图时,本文所提方法在验证集和测试集上分别获得 54.9%,55.3%的平均
IoU 值,其分割结果要明显优于除 AE-PSL [22] 之外的其他方法.与 AE-PSL 方法相比,我们的结果仅仅下降了 0.1
与 0.4 个百分点.但是 AE-PSL [22] 方法需要在每次获取对象位置信息之后擦除图像并重复训练分类网络,其迭代
次数无法确定,而且分类网络与分割网络是两个独立的网络.而本文方法无需重复训练显著图模型,从而降低了
模型训练时间,并且分类网络与分割网络共享网络结构(从模型训练时间来讲,假设 AE-PSL [22] 方法需要迭代 3
次来训练分类网络,以 VGG-16 网络结构为参照,其分类网络的训练时间约为 16h×3=48h(GPU 配置:NVIDIA
GeForce TITIAN X),其分割网络的训练时间约为 10h,总共约为 58h.而本文所提方法的模型训练时间约为
16h+10h=26h.由此可见,本文方法的模型训练时间要比 AE-PSL [22] 方法降低了一半的时间).当采用 WSS [27] 的显
著图时,本文方法“WSS_S 2 _AM_DeepLab”比 AE-PSL 方法下降了 1.7 个百分点,但是该方法是真正意义上的只
采用图像级标注,而 AE-PSL 方法所使用的显著图 [51] 则需要更精确的前景标注.此外,一些对比方法使用了除图
像类别标注的其他信息,例如,MIL [52] 与 SN_B [39] 均借助 MCG [53] 模型产生对象分割候选集,从而提升分割结果;
AugFeed-SS [54] 使用 selective search [55] 获取对象的分割候选集;STC [41] 使用额外的图像数据集(50K flickr)与
PASCAL VOC 数据集共同训练分割网络.因此可以说明,本文方法通过最简单的计算框架得到更好的分割结果.
另外,从实验结果可以看出,我们的方法“DHSN_S 2 _AM_CRF(λ=0.98)”在验证集上得到最优的分割结果
(56.0%),但是在测试集上,其平均 IoU 值下降了近 7 个百分点.这是因为在获取注意力图时使用了验证集的类别
标签,即明确地给出图像类别的注意力图,从而融合显著图获取伪像素标注.而在测试集合上,图像的类别标签
是不可知的,因此首先需要通过分类网络判别图像的类别,并根据这些类别生成注意力图.可见分类网络是存在
误差的,所以其分割准确性要比方法“DHSN_S 2 _AM_DeepLab”降低很多.这同时也间接地说明训练分割网络的
必要性,单纯的分类网络是不能够很好地提升分割准确率的.DCSM [45] 仅通过分类网络获取注意力图,并用