Page 462 - 《软件学报》2025年第9期

P. 462

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(9):4373−4387 [doi: 10.13328/j.cnki.jos.007265] [CSTR: 32375.14.jos.007265] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563

*
基于语义调制的弱监督语义分割

李军侠 1,2 , 苏京峰 1,2 , 崔滢 3 , 刘青山 1,2

1
(南京信息工程大学计算机学院, 江苏南京 210094)
2
(江苏省大气环境与装备技术协同创新中心, 江苏南京 210094)
3
(浙江工业大学计算机科学与技术学院, 浙江杭州 310023)
通信作者: 刘青山, E-mail: qsliu@nuist.edu.cn

摘要: 图像级标注下的弱监督语义分割方法通常采用卷积神经网络 (CNN) 生成类激活图以精确定位目标位置,
其面临的主要挑战在于 CNN 对全局信息感知能力的不足导致前景区域过小的问题. 近年来, 基于 Transformer 的
弱监督语义分割方法利用自注意力机制捕捉全局依赖关系, 解决了 CNN 的固有缺陷. 然而, Transformer 生成的初

始类激活图会在目标区域周围引入大量背景噪声, 此时直接对初始类激活图进行使用并不能取得令人满意的效果.
通过综合利用 Transformer 生成的类与块间注意力 (class-to-patch attention) 以及区域块间注意力 (patch-to-patch
attention) 对初始类激活图进行联合优化, 同时, 由于原始的类与块间注意力存在误差, 对此设计一种语义调制策略,
利用区域块间注意力的语义上下文信息对类与块间注意力进行调制, 修正其误差, 最终得到能够准确覆盖较多目
标区域的类激活图. 在此基础上, 构建一种新颖的基于 Transformer 的弱监督语义分割模型. 所提方法在 PASCAL
VOC 2012 验证集和测试集上 mIoU 值分别达到 72.7% 和 71.9%, MS COCO 2014 验证集上 mIoU 为 42.3%, 取得
了目前较为先进的弱监督语义分割结果.
关键词: 语义分割; 弱监督学习; 语义上下文; Transformer; 类激活图
中图法分类号: TP391

中文引用格式: 李军侠, 苏京峰, 崔滢, 刘青山. 基于语义调制的弱监督语义分割. 软件学报, 2025, 36(9): 4373–4387. http://www.jos.
org.cn/1000-9825/7265.htm
英文引用格式: Li JX, Su JF, Cui Y, Liu QS. Semantic-modulation-based Weakly Supervised Semantic Segmentation. Ruan Jian Xue
Bao/Journal of Software, 2025, 36(9): 4373–4387 (in Chinese). http://www.jos.org.cn/1000-9825/7265.htm

Semantic-modulation-based Weakly Supervised Semantic Segmentation
1,2
1,2
3
LI Jun-Xia , SU Jing-Feng , CUI Ying , LIU Qing-Shan 1,2
1
(School of Computer Science, Nanjing University of Information Science and Technology, Nanjing 210094, China)
2
(Jiangsu Collaborative Innovation Center of Atmospheric Environment and Equipment Technology, Nanjing 210094, China)
3
(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)
Abstract: Image-level weakly supervised semantic segmentation usually uses convolutional neural networks (CNNs) to generate class
activation maps to accurately locate targets. However, CNNs have a limited capacity to perceive global information, which results in
excessively narrow foregrounds. Recently, Transformer-based weakly supervised semantic segmentation has utilized self-attention
mechanisms to capture global dependencies, addressing the inherent defects of CNNs. Nevertheless, the initial class activation map
generated by a Transformer often introduces a lot of background noise around the target area, resulting in unsatisfactory performance if
used directly. This study comprehensively utilizes both class-to-patch and patch-to-patch attention generated by a Transformer to optimize

* 基金项目: 国家重点研发计划 (2022YFC2405600); 国家自然科学基金 (62272235, 62102364, U21B2044); 浙江省自然科学基金 (LY22
F020016)
收稿时间: 2023-09-08; 修改时间: 2024-01-11; 采用时间: 2024-07-25; jos 在线出版时间: 2025-01-08
CNKI 网络首发时间: 2025-01-15

457 458 459 460 461 462 463 464 465 466 467