Page 337 - 《软件学报》2020年第11期
P. 337

3652                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                 dense CRF 优化分割结果,其分割准确率 45.1%明显低于本文的方法.
                           Table 5  Weakly supervised semantic segmentation results on validation and test images
                                       表 5   在验证和测试数据集上的弱监督语义分割结果
                                        方法                  平均 IoU(验证)(%)      平均 IoU(测试)(%)
                                     EM-Adapt [35]               38.2               39.6
                                  LCEM-Fixed-2-Hyb [43]          45.4               46.0
                                      CCNN [19]                  36.3               35.6
                                       MIL [52]                  42.0               40.6
                                       SN_B [39]                 41.9               43.2
                                       SEC [16]                  50.7               51.7
                                       STC [41]                  49.8               51.2
                                   Combining Cues [56]           52.8               53.7
                                      DCSM [45]                  44.1               45.1
                                     AugFeed-SS  [54]            52.6               52.7
                                     Two-phase [44]              53.1               53.8
                                      AE-PSL [22]                55.0               55.7
                                   Build on FG/BG  [40]          46.6               48.0
                              DHSN_S 2_AM_CRF(λ=0.98) (ours)     56.0               49.7
                                WSS_S 2_AM_DeepLab (ours)        53.3               53.9
                               DHSN_S 2_AM_DeepLab (ours)        54.9               55.3

                                                                      [2]
                    表 6 列出与全监督和半监督语义分割方法的比较结果.DeepLab 的训练集中有 10 582 幅图像的像素级标
                 注,因此该方法的平均 IoU 值在 65%以上.Bbox-EM-Fixed        [35] 与 BoxSup [34] 方法均借助了 bounding box 标注准确
                 地定位到对象的位置,虽然 bounding box 标注并不能提供对象的轮廓信息,但是却极大地降低了模型的训练难
                 度,因此可以将使用这类标注的方法视为半监督方法.可见,这两个方法的平均 IoU 值较高.ScribbleSup                        [33] 方法的
                 训练集有 scribble 标注,该标注能够勾勒出对象的流型走向.What’s the point          [14] 与 TransferNet [38] 虽然分别采用了
                 点标注和其他数据集的像素标注,但是这两个方法的分割性能均比本文方法要低.这说明仅仅依赖点标注来学
                 习模型的参数是远远不够的,因为它并不能提供有效的对象位置信息.此外,由于数据集之间存在一定的差异,
                 因此借助于其他数据集的像素标注来做目标数据集的分割任务存在一定的弊端.从该实验可以看出,本文所提
                 方法与其他方法相比,在仅有图像级标注时仍然具有很好的分割性能.本文方法虽然没有比半监督或者全监督
                 方法的平均 IoU 值高,但是在弱监督的设定下,提升了分割效果的同时也缩小了两者的差距.
                             Table 6    Comparison results with fully supervised and semi supervised approaches
                                           on PASCAL VOC 2012 segmentation dataset
                             表 6   与全监督、半监督方法在 PASCAL VOC 2012 分割数据集上的比较结果
                                     方法               平均 IoU 验证集&测试集           监督方式|标注方法
                                   DeepLab [2]            67.6% & 70.3%          全监督训练
                                Bbox-EM-Fixed [35]        64.8% & 69.0%    半监督训练,bounding box 标注
                                 ScribbleSup [33]         71.3% & 73.1%          scribble 标注
                                What’s the point [14]     42.7% & 43.6%          点(point)标注
                                   BoxSup [34]            62.0% & 64.2%        bounding box 标注
                                 TransferNet [38]         52.1% & 51.2%     MSCOCO  数据集像素标注
                          DHSNet_S 2_AM_CRF (λ=0.98) (ours)   56.0% & 49.7%        弱监督
                             WSS_S 2_AM_DeepLab (ours)    53.3% & 53.9%            弱监督
                            DHSN_S 2_AM_DeepLab (ours)    54.9% & 55.3%            弱监督
                    此外,表 7 列出了本文方法在 PASCAL VOC 2012 验证及测试集合上 21 个类别详细的分割结果.其中,分割
                 最好的 5 个类别是“car、bird、cat、bus、airplane”.可以看出,这 5 个类别中,“bus”和“airplane”通常占据图像的
                 大部分区域,并且背景比较简单,轮廓单一,具有固定的形状;类别“car”与“bird”虽然不会占据图像的大部分区域,
                 但是其出现的场景较为单一,例如路边、公路上、枝头、水面上等;此外,类别“cat”虽然出现的场景比较多样化,
                 但是与背景的区分度较高,因此分割情况较为容易.分割效果较差的 5 个类别为“chair、diningtable、sofa、plant、
                 bike”.类别“bike”与“chair”都具有较复杂的轮廓,并不具有固定的形状;而“diningtable”通常与“chair”同时出现,
                 经常会出现将“chair”分割为“diningtable”的情况;类别“sofa”通常与背景的区分度较低,出现的场景较为复杂,而
   332   333   334   335   336   337   338   339   340   341   342