Page 462 - 《软件学报》2025年第9期
P. 462

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(9):4373−4387 [doi: 10.13328/j.cnki.jos.007265] [CSTR: 32375.14.jos.007265]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                        *
                 基于语义调制的弱监督语义分割

                 李军侠  1,2 ,    苏京峰  1,2 ,    崔    滢  3 ,    刘青山  1,2


                 1
                  (南京信息工程大学 计算机学院, 江苏 南京 210094)
                 2
                  (江苏省大气环境与装备技术协同创新中心, 江苏 南京 210094)
                 3
                  (浙江工业大学 计算机科学与技术学院, 浙江 杭州 310023)
                 通信作者: 刘青山, E-mail: qsliu@nuist.edu.cn

                 摘 要: 图像级标注下的弱监督语义分割方法通常采用卷积神经网络                       (CNN) 生成类激活图以精确定位目标位置,
                 其面临的主要挑战在于        CNN  对全局信息感知能力的不足导致前景区域过小的问题. 近年来, 基于                     Transformer 的
                 弱监督语义分割方法利用自注意力机制捕捉全局依赖关系, 解决了                      CNN  的固有缺陷. 然而, Transformer 生成的初

                 始类激活图会在目标区域周围引入大量背景噪声, 此时直接对初始类激活图进行使用并不能取得令人满意的效果.
                 通过综合利用     Transformer 生成的类与块间注意力       (class-to-patch attention) 以及区域块间注意力  (patch-to-patch
                 attention) 对初始类激活图进行联合优化, 同时, 由于原始的类与块间注意力存在误差, 对此设计一种语义调制策略,
                 利用区域块间注意力的语义上下文信息对类与块间注意力进行调制, 修正其误差, 最终得到能够准确覆盖较多目
                 标区域的类激活图. 在此基础上, 构建一种新颖的基于                Transformer 的弱监督语义分割模型. 所提方法在          PASCAL
                 VOC 2012  验证集和测试集上     mIoU  值分别达到    72.7%  和  71.9%, MS COCO 2014  验证集上  mIoU  为  42.3%, 取得
                 了目前较为先进的弱监督语义分割结果.
                 关键词: 语义分割; 弱监督学习; 语义上下文; Transformer; 类激活图
                 中图法分类号: TP391

                 中文引用格式: 李军侠, 苏京峰, 崔滢, 刘青山. 基于语义调制的弱监督语义分割. 软件学报, 2025, 36(9): 4373–4387. http://www.jos.
                 org.cn/1000-9825/7265.htm
                 英文引用格式: Li JX, Su JF, Cui Y, Liu QS. Semantic-modulation-based Weakly Supervised Semantic Segmentation. Ruan Jian Xue
                 Bao/Journal of Software, 2025, 36(9): 4373–4387 (in Chinese). http://www.jos.org.cn/1000-9825/7265.htm

                 Semantic-modulation-based Weakly Supervised Semantic Segmentation
                                     1,2
                         1,2
                                              3
                 LI Jun-Xia , SU Jing-Feng , CUI Ying , LIU Qing-Shan 1,2
                 1
                 (School of Computer Science, Nanjing University of Information Science and Technology, Nanjing 210094, China)
                 2
                 (Jiangsu Collaborative Innovation Center of Atmospheric Environment and Equipment Technology, Nanjing 210094, China)
                 3
                 (College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)
                 Abstract:  Image-level  weakly  supervised  semantic  segmentation  usually  uses  convolutional  neural  networks  (CNNs)  to  generate  class
                 activation  maps  to  accurately  locate  targets.  However,  CNNs  have  a  limited  capacity  to  perceive  global  information,  which  results  in
                 excessively  narrow  foregrounds.  Recently,  Transformer-based  weakly  supervised  semantic  segmentation  has  utilized  self-attention
                 mechanisms  to  capture  global  dependencies,  addressing  the  inherent  defects  of  CNNs.  Nevertheless,  the  initial  class  activation  map
                 generated  by  a  Transformer  often  introduces  a  lot  of  background  noise  around  the  target  area,  resulting  in  unsatisfactory  performance  if
                 used  directly.  This  study  comprehensively  utilizes  both  class-to-patch  and  patch-to-patch  attention  generated  by  a  Transformer  to  optimize


                 *    基金项目: 国家重点研发计划  (2022YFC2405600); 国家自然科学基金  (62272235, 62102364, U21B2044); 浙江省自然科学基金  (LY22
                  F020016)
                  收稿时间: 2023-09-08; 修改时间: 2024-01-11; 采用时间: 2024-07-25; jos 在线出版时间: 2025-01-08
                  CNKI 网络首发时间: 2025-01-15
   457   458   459   460   461   462   463   464   465   466   467