Page 481 - 《软件学报》2025年第12期
P. 481

5862                                                      软件学报  2025  年第  36  卷第  12  期


                 号, 网络生成的错误预测可能导致伪标签存在错误, 从而使网络受到错误的监督信号影响, 导致性能下降. CCVC                              [39]
                 虽然也提出了分支网络提取差异信息, 但其网络架构完全相同, 差异化依赖于线性特征映射层, 线性映射前不同分
                 支的特征提取差异化无法得到保证, 网络分支同化的问题仍然存在. PCR                     [40] 将原型网络引入半监督语义分割, 与全
                 卷积神经网络构成多分支网络, 但其受限于一致正则化, 完全相同的监督信号在出现错误时无法准确检测并排除,
                 网络末端的错误检测能力得不到保证. IPixMatch           [43] 引入了像素上下文损失, 在极少标签的情况下表现较好, 也侧
                 面印证了本文交叉融合伪标签的合理性. UniMatch            [27] 将强弱对比策略进行了扩展, 不仅在数据增强阶段应用强弱
                 对比方案, 还在解码阶段通过使用          dropout 对编码进行扰动生成新的分支. 四分支网络在标签数据极少的情况下能

                 够获取更多的可用信息. 此外, UniMatch      [27] 在无标签端的损失计算采用了熵最小化的一致性损失, 而不是采用伪标
                 签方法, 这使得其在处理错误预测的收敛更慢, 有效避免错误干扰. 尽管在                     Classic Pascal VOC 2012 [30] 的  1/16  分区
                 协议下, UniMatch  性能领先本工作     2.6%, 但其训练时间较长, 训练成本相对较高. 相对而言, Blender Pascal VOC
                 2012  数据集  [48] 的数据量较大, 因此在不同分区协议下本方法能够获得更多准确监督, 这也导致在各分区协议下本
                 文方法的性能普遍优于        MLLC [51] 等方法. 不同数据集下的性能差异表明, 本文方法在数据量较大的情况下表现更
                 为出色, 而在标签数据极少的情况下, 仍会受到较多错误信息的干扰, 从而影响性能.
                    表  4  对比了本文方法以及现有方法在          Cityscapes 数据集上的性能差异     (CPS  结果转载自   U2PL  [40] 结果), 红色
                 最优, 蓝色次之. 由于    Cityscapes 数据集训练规模更大、耗时更长, 为了加快实验进程, 本文仅采用                  ResNet-50  进行
                 训练. 从结果可以看到本文方法性能相较于其他方法均有不同幅度领先, 特别在只有                          186  个标签数据的    1/16  分区
                 协议下, 本文方法更是超过        CPSR [42] 方法  1.3%, 即使在标签数据较多的    1/4  分区协议时也与    CPSR [42] 并列最优, 并
                 领先  UniMatch  和  IPixMatch  方法  0.5%, 取得了有竞争力的结果.


                                 表 4 Cityscapes 数据集不同含标签比例的分区协议下分割性能对比 (%)

                                Method            1/16 (186)       1/8 (372)        1/4 (744)
                                Baseline            63.3             65.8             68.4
                                CCT [20]            66.4             72.5             75.7
                                GCT [52]            65.8             71.3             75.3
                                 CPS [19]           69.8             74.3             74.6
                                ELN [15]            -                70.3             73.5
                                U2PL [41]           69.0             73.0             76.3
                                USRN [53]           71.2             75.0             -
                                CCVC [39]           74.9             76.4             77.3
                               UniMatch [27]        75.0             76.8             77.5
                                CPSR [42]           75.5             77.3             78.0
                                 VC3 [44]           74.8             76.8             77.2
                               IPixMatch [43]       74.1             76.0             77.5
                                 Ours               76.8             77.5             78.0

                    从图  7  中可以看到本文交叉监督的差异化特征提取方法的合理性, 语义分支对于主体区域的识别更加准确,
                 细节纹理分支可以保留关注更多细节信息, 而边缘分支更多的关注图像中的边界区域. 语义分支和纹理分支提取
                 不同的信息, 保障了不同分支之间的差异性, 解决了现有半监督语义分割方法网络分支同化的缺陷.
                    在图  8  中, 展示了本文方法在      1/4  分区下的  Cityscapes 数据集上的分割效果, 可以看出, 本文方法在各种难以
                 识别分割的区域都有明显的改善. 本文的方法在识别和分割形状边缘更加明显的信号灯、信号牌等小目标物体时
                 表现出更强的能力. 相比于其他方法, 第           2  行分割效果图中细粒度更高的         bus 分割任务中, 本文的方法能够更准确
                 地区分对应像素类别, 而其他方法会将部分区域错误标记为                    car. 此外, 在第  3  行具有长连续区域分割效果展示的
                 sidewalk  分割任务中, 本文的方法在处理边缘区域时表现更出色, 具有更好的连续性.
   476   477   478   479   480   481   482   483   484   485   486