Page 464 - 《软件学报》2025年第9期

P. 464

李军侠等: 基于语义调制的弱监督语义分割 4375

2) 针对 ViT 生成的原始类与块间注意力存在误差的问题, 提出了一种语义调制策略, 利用区域块间注意力的
语义上下文信息来有效修正误差, 从而获得更准确的类与块间注意力.
3) 在常用的 PASCAL VOC 2012 和 MS COCO 2014 数据集上进行实验, 所提出的弱监督语义分割方法实现
了先进的性能, 验证了所提算法的可行性与有效性.

(a) 原图 (b) 调制前的类与块间 (c) 调制后的类与块间
注意力可视化图注意力可视化图
图 1 类与块间注意力可视化图

1 相关工作

1.1 弱监督语义分割
现有的弱监督语义分割方法通常使用卷积神经网络生成类激活图, 进而生成像素级伪标签, 之后以完全监督
的方式使用伪标签来训练语义分割网络. 然而, 基于卷积神经网络得到的类激活图只能够激活目标对象中最具辨
别力的部分, 无法对语义分割网络的学习提供足够的监督. 为此, 许多工作致力于获得更好的类激活图. 例如, 对抗
性擦除 [15] 利用擦除策略擦除目标对象中最具辨别力的区域, 然后重新训练分类网络, 从而迫使网络激活剩余目标
区域. 受分类网络在不同训练阶段所关注的对象区域一直变化这一特性的启发, OAA [16] 通过整合不同阶段的激活
区域以生成更完整的类激活图. 还有一些工作 [17] 提出从多个输入图像中捕捉语义相似性和相异性以此来获得更
[6]
[8]
完整的目标区域. SC-CAM 利用子类别目标进行对象区域挖掘, 从而发现更多对象区域. SEAM 设计了一个探索
像素上下文相关性的模块, 并提出利用仿射变换下的一致性约束来得到高精度的种子区域. CPN [18] 提出一种互补
补丁网络, 通过缩小互补图像生成的类激活图和原始图像生成的类激活图之间的差距来获得具有更多关于目标种
子信息的类激活图. 此外, CPN 还提出了一个像素-区域相关模块, 通过利用特征映射和类激活图之间的像素-区域
关系来增强上下文信息. L2G [19] 提出了一种从局部到全局的知识转移方法, 该方法包括一个局部网络和全局网络.
首先利用局部网络学习丰富的对象细节知识, 然后全局网络在线从局部网络中学习互补的知识, 从而获得更完整
的对象关注. AMR [20] 提出了一种新颖的激活调制和重校准方法, 该方法利用聚光灯分支和补偿分支对类激活图加
权修正, 从而提供重校准的监督信号. 其中补偿分支提出了注意力调节模块, 按照通道-空间的顺序重新学习特征
重要性的分布, 这有助于显式地建模通道相关性和空间编码, 以自适应地调节面向分割任务的激活响应; 此外,
AMR 还针对双分支引入了一种交叉伪监督机制作为语义相似的正则化机制来相互细化两个分支. 其他的一些工
[7]
作通过迭代的方法改进了类激活图, 例如, AffinityNet 提出学习相邻坐标像素对之间的语义相似性, 并应用随机
游走 (RW) 来进一步细化种子区域. IRNet [21] 利用邻域像素对之间的关系作为约束, 进一步探索了用于确定像素亲
和性的边界激活图. 虽然这些方法最终都获得了更好的类激活图, 但是它们通常都是基于卷积神经网络, 因此该类
方法往往受限于局部感受野, 无法探索全局特征关系. 本文通过使用 ViT 结构来避免此问题.

1.2 ViT
2020 年提出的 ViT 首次成功将 Transformer 架构应用于计算机视觉领域, 并在许多视觉任务中取得了出色的
表现. TS-CAM [13] 首次尝试在弱监督目标定位中使用 ViT, 它首先将类别信息从类 token 重新分配到块 token 中, 并

459 460 461 462 463 464 465 466 467 468 469