Page 470 - 《软件学报》2025年第9期

P. 470

李军侠等: 基于语义调制的弱监督语义分割 4381

较少, 此时在与区域块间注意力进行矩阵乘法计算可以得到较为准确的激活值. 通过实验发现, 综合利用类与块间
注意力和区域块间注意力来优化初始类激活图可以得到比单独使用类与块间注意力或区域块间注意力更好的效
果, 其可视化结果如图 6(e) 所示.

(a) 原图 (b) 初始类激活图 (c) 区域块间注意力 (d) 类与块间注意力 (e) 区域块间注意力
+类与块间注意力
图 6 不同类型注意力优化生成的激活图结果

同时对应的类激活图 mIoU 结果如表 4 所示, 侧面印证了使用类与块注意力和区域块间注意力的结合能够更
好地优化初始类激活图.
因此本文使用类与块间注意力以及区域块间注意力对初始类激活图进行联合优化, 分别得到调节类激活图以
及最终类激活图. 下面对不同阶段得到的类激活图进行分析, 并在表 5 中给出了 PASCAL VOC 2012 训练集上的
类激活图对比结果. 从表 5 可以看出, Original-CAM 的 mIoU 值为 46.1%, 接下来使用类与块间注意力优化得到
Modulated-CAM, 此时的 mIoU 值提高到 59.3%, 然后使用区域块间注意力对 Modulated-CAM 进一步优化得到
Final-CAM, 其 mIoU 值可以达到 63.6%.

表 4 PASCAL VOC 2012 训练集上类激活图结果表 5 注意力联合优化的影响

类激活图方法类激活图mIoU (%)
方法
mIoU (%) Original-CAM 46.1
初始类激活图 46.1 Modulated-CAM 59.3
初始类激活图+区域块间注意力 54.2 Final-CAM 63.6
初始类激活图+类与块间注意力 59.3
初始类激活图+类与块间注意力+区域块间注意力 63.6

3.5 与先进算法的比较

3.5.1 PASCAL VOC 2012
类激活图与伪标签对比: 表 6 给出了不同方法 [6,8,14,18,20,22,31–34] 对应类激活图和伪标签的比较结果 (粗体标记最
佳结果). 如表中第 2 列所示, 本文方法在 PASCAL VOC 2012 数据集训练集上取得了最优的类激活图结果, 其
mIoU 值达到了 63.6%. 相比于其他一些最新方法, 例如 AMR [20] 、AFA [22] 和 CLIMS [31] , 本文类激活图的 mIoU 值分
[7]
别高出 6.8%、11.0% 和 7.0%. 受启发于前人工作 [6,8] , 采用 PSA 对类激活图进行后处理, 以得到高质量的像素级
伪标签. 本文方法经过 PSA 后处理得到的伪标签在 PASCAL VOC 2012 训练集上达到了 70.5% 的 mIoU, 比
AFA [22] 和 MCTformer [14] 分别高出 1.8% 和 1.4%, 如表中第 3 列所示. 该实验结果很好地证明了本文方法在生成高
质量类激活图和高精度伪标签方面的有效性.
分割结果对比: 本节将本文方法与其他基于图像级标注的弱监督语义分割模型 [6,14,19,23,29–32,35–49] 进行分割性能
比较, 本文方法使用 ImageNet 上预先训练的 ResNet38 对伪标签进行全监督训练. 表 7 给出了在 PASCAL VOC
2012 数据集验证集和测试集上分割对比结果. 其中, I 表示图像级标签, S 表示显著性图, 粗体标记最佳结果. 如表 7
所示, 本文方法在 PASCAL VOC 2012 验证集和测试集上 mIoU 指标分别达到了 72.7% 和 71.9%, 在没有使用额外

465 466 467 468 469 470 471 472 473 474 475