Page 470 - 《软件学报》2025年第9期
P. 470

李军侠 等: 基于语义调制的弱监督语义分割                                                           4381


                 较少, 此时在与区域块间注意力进行矩阵乘法计算可以得到较为准确的激活值. 通过实验发现, 综合利用类与块间
                 注意力和区域块间注意力来优化初始类激活图可以得到比单独使用类与块间注意力或区域块间注意力更好的效
                 果, 其可视化结果如图      6(e) 所示.
















                           (a) 原图      (b) 初始类激活图     (c) 区域块间注意力     (d) 类与块间注意力     (e) 区域块间注意力
                                                                                      +类与块间注意力
                                           图 6 不同类型注意力优化生成的激活图结果

                    同时对应的类激活图        mIoU  结果如表  4  所示, 侧面印证了使用类与块注意力和区域块间注意力的结合能够更
                 好地优化初始类激活图.
                    因此本文使用类与块间注意力以及区域块间注意力对初始类激活图进行联合优化, 分别得到调节类激活图以
                 及最终类激活图. 下面对不同阶段得到的类激活图进行分析, 并在表                     5  中给出了  PASCAL VOC 2012  训练集上的
                 类激活图对比结果. 从表        5  可以看出, Original-CAM  的  mIoU  值为  46.1%, 接下来使用类与块间注意力优化得到
                 Modulated-CAM, 此时的  mIoU  值提高到  59.3%, 然后使用区域块间注意力对          Modulated-CAM  进一步优化得到
                 Final-CAM, 其  mIoU  值可以达到  63.6%.


                  表 4 PASCAL VOC 2012  训练集上类激活图结果                       表 5 注意力联合优化的影响

                                                   类激活图               方法               类激活图mIoU (%)
                                方法
                                                   mIoU (%)        Original-CAM             46.1
                             初始类激活图                  46.1          Modulated-CAM            59.3
                       初始类激活图+区域块间注意力                54.2           Final-CAM               63.6
                       初始类激活图+类与块间注意力                59.3
                 初始类激活图+类与块间注意力+区域块间注意力              63.6

                 3.5   与先进算法的比较

                 3.5.1    PASCAL VOC 2012
                    类激活图与伪标签对比: 表         6  给出了不同方法    [6,8,14,18,20,22,31–34] 对应类激活图和伪标签的比较结果  (粗体标记最
                 佳结果). 如表中第     2  列所示, 本文方法在     PASCAL VOC 2012  数据集训练集上取得了最优的类激活图结果, 其
                 mIoU  值达到了  63.6%. 相比于其他一些最新方法, 例如        AMR [20] 、AFA [22] 和  CLIMS [31] , 本文类激活图的  mIoU  值分
                                                                  [7]
                 别高出   6.8%、11.0%  和  7.0%. 受启发于前人工作   [6,8] , 采用  PSA 对类激活图进行后处理, 以得到高质量的像素级
                 伪标签. 本文方法经过       PSA  后处理得到的伪标签在         PASCAL VOC 2012  训练集上达到了      70.5%  的  mIoU, 比
                 AFA [22] 和  MCTformer [14] 分别高出  1.8%  和  1.4%, 如表中第  3  列所示. 该实验结果很好地证明了本文方法在生成高
                 质量类激活图和高精度伪标签方面的有效性.
                    分割结果对比: 本节将本文方法与其他基于图像级标注的弱监督语义分割模型                          [6,14,19,23,29–32,35–49] 进行分割性能
                 比较, 本文方法使用      ImageNet 上预先训练的    ResNet38  对伪标签进行全监督训练. 表        7  给出了在  PASCAL VOC
                 2012 数据集验证集和测试集上分割对比结果. 其中, I 表示图像级标签, S                表示显著性图, 粗体标记最佳结果. 如表          7
                 所示, 本文方法在     PASCAL VOC 2012  验证集和测试集上     mIoU  指标分别达到了     72.7%  和  71.9%, 在没有使用额外
   465   466   467   468   469   470   471   472   473   474   475