Page 463 - 《软件学报》2025年第9期

P. 463

4374 软件学报 2025 年第 36 卷第 9 期

the initial class activation map. At the same time, a semantic modulation strategy is designed to correct errors in the class-to-patch
attention, using the semantic context information of the patch-to-patch attention. Finally, a class activation map that accurately covers more
target areas is obtained. On this basis, a novel model for weakly supervised semantic segmentation based on a Transformer is constructed.
The mIoU of the proposed method reaches 72.7% and 71.9% on the PASCAL VOC 2012 validation and test sets, respectively, and 42.3%
on the MS COCO 2014 validation set, demonstrating that the proposed method achieves improved performance in weakly supervised
semantic segmentation.
Key words: semantic segmentation; weakly supervised learning; semantic context; Transformer; class activation map

语义分割是计算机视觉领域一个非常重要且基础的研究方向, 该任务利用计算机的特征表达来模拟人类对图
像的识别过程, 为给定图像的每一个像素分配一个语义类别标签. 语义分割在许多领域具有广泛的应用, 如图像识
别、自动驾驶、医学图像分析、场景理解和视频分析等, 它可以帮助计算机更好地理解图像中的内容, 从而实现
自动化的场景理解和决策. 近年来随着深度学习技术的蓬勃发展 [1] , 语义分割技术也取得了长足的发展与进步, 其
中全监督的语义分割模型被广泛应用并取得了优秀的性能 [2] . 然而训练全监督的语义分割模型需要大规模的像素
级标注数据, 而像素级标注数据的获取往往难度大且耗时耗力. 为了解决这个问题, 许多工作开始转向研究弱监督
语义分割技术. 弱监督语义分割是指只使用弱标注的数据对语义分割模型进行训练, 常用的弱标注包括边界框标
注 [3] 、涂鸦标注 [4] 、点标注 [5] 以及图像级标注 [6−8] . 其中图像级标注仅需要给出图像存在的具有目标类别信息, 并
不需要指出目标类别在图像中的位置, 极大地减少了数据标注的时间和代价. 此外, 大规模基于图像级标注的训练
数据可以从在线的多媒体分享网站中快速且方便的获取, 这也极大地缓解了训练数据规模不足的问题. 基于图像
级标注的弱监督图像语义分割技术也因此成为计算机视觉领域一大学术研究热点. 本文特别关注使用图像级标注
的弱监督语义分割.
如何从图像级标注中推断出高质量且稠密的位置信息, 进而基于推断的伪标注数据构建图像语义分割网络是
[9]
基于图像级标注弱监督图像语义分割方法面临的关键和难点问题. 类激活图 (CAM) 的提出提供了一种只使用图
像级标注来获取位置信息的有效方法, 其在分类网络的基础上通过对不同特征映射加权平均得到每个类别对应的
鉴别区域. 对于图像级标注的弱监督语义分割, 大多数现有方法通常使用以下流程来解决: 1) 利用图像级标注训练
卷积神经网络 (CNN), 生成类激活图以获得种子区域; 2) 对种子区域进行一定约束的扩张以获得伪标签; 3) 使用
伪标签作为真实标签来训练全监督语义分割网络. 然而, 卷积神经网络产生的类激活图存在一个问题, 即它倾向于
激活一个局部的有辨别力的区域, 而忽略了完整的对象区域, 导致不完全激活问题 [6−8] . 最近有研究证明这是由于
卷积神经网络的固有特性导致的, 即卷积神经网络中的卷积操作只能捕获小范围的特征依赖性 [10] , 无法探索全局
特征关系, 导致激活对象区域过小, 从而影响生成的伪标签质量, 最终难以得到理想的弱监督语义分割结果.
最近, vision Transformer (ViT) [11] 在许多计算机视觉任务中取得了巨大的成功 [12] , 这主要得益于其本身的自注
意力机制, 该机制可以对全局特征关系进行建模, 有效克服卷积神经网络的上述缺点. 因此许多研究人员开始将
ViT 引入弱监督语义分割任务中, 并取得了优异的成果, 例如 TS-CAM [13] 、MCTformer [14] 等, 通常这些方法会先得
到一个粗糙的初始类激活图, 之后直接使用 ViT 生成的原始类与块间注意力进行类激活图的计算. 然而, 本文通过
实验发现, ViT 生成的原始类与块间注意力往往存在误差 (如图 1(b) 所示, 对于狗所对应的类与块间注意力来说,
黑色方框所标注的区域块的注意力存在误差), 此时如果直接使用原始类与块间注意力对初始类激活图进行计算
往往得不到理想的结果.
为了解决上述问题, 在本文中构建了一种基于 ViT 的类激活图联合优化框架, 通过综合利用 ViT 生成的类与
块间注意力以及区域块间注意力对初始类激活图进行联合优化, 得到能够完整且准确覆盖地目标区域的类激活
图. 此外, 在构建的基于 ViT 的类激活图联合优化框架中, 提出了一种语义调制策略, 根据区域块间注意力的语义
上下文信息来修正类与块间注意力中存在的误差 (如图 1(c) 紫色方框所标注的区域块所示, 本文方法可以对存在
误差的注意力进行有效修正, 显著提升其准确性). 本文主要贡献包括以下 3 点.
1) 构建了一种基于 ViT 的类激活图联合优化框架, 综合利用 ViT 生成的类与块间注意力以及区域块间注意力
对初始类激活图进行联合优化, 得到可以较为准确且全面地覆盖前景目标区域的类激活图, 同时有效抑制背景噪声.

458 459 460 461 462 463 464 465 466 467 468