Page 481 - 《软件学报》2025年第12期

P. 481

5862 软件学报 2025 年第 36 卷第 12 期

号, 网络生成的错误预测可能导致伪标签存在错误, 从而使网络受到错误的监督信号影响, 导致性能下降. CCVC [39]
虽然也提出了分支网络提取差异信息, 但其网络架构完全相同, 差异化依赖于线性特征映射层, 线性映射前不同分
支的特征提取差异化无法得到保证, 网络分支同化的问题仍然存在. PCR [40] 将原型网络引入半监督语义分割, 与全
卷积神经网络构成多分支网络, 但其受限于一致正则化, 完全相同的监督信号在出现错误时无法准确检测并排除,
网络末端的错误检测能力得不到保证. IPixMatch [43] 引入了像素上下文损失, 在极少标签的情况下表现较好, 也侧
面印证了本文交叉融合伪标签的合理性. UniMatch [27] 将强弱对比策略进行了扩展, 不仅在数据增强阶段应用强弱
对比方案, 还在解码阶段通过使用 dropout 对编码进行扰动生成新的分支. 四分支网络在标签数据极少的情况下能

够获取更多的可用信息. 此外, UniMatch [27] 在无标签端的损失计算采用了熵最小化的一致性损失, 而不是采用伪标
签方法, 这使得其在处理错误预测的收敛更慢, 有效避免错误干扰. 尽管在 Classic Pascal VOC 2012 [30] 的 1/16 分区
协议下, UniMatch 性能领先本工作 2.6%, 但其训练时间较长, 训练成本相对较高. 相对而言, Blender Pascal VOC
2012 数据集 [48] 的数据量较大, 因此在不同分区协议下本方法能够获得更多准确监督, 这也导致在各分区协议下本
文方法的性能普遍优于 MLLC [51] 等方法. 不同数据集下的性能差异表明, 本文方法在数据量较大的情况下表现更
为出色, 而在标签数据极少的情况下, 仍会受到较多错误信息的干扰, 从而影响性能.
表 4 对比了本文方法以及现有方法在 Cityscapes 数据集上的性能差异 (CPS 结果转载自 U2PL [40] 结果), 红色
最优, 蓝色次之. 由于 Cityscapes 数据集训练规模更大、耗时更长, 为了加快实验进程, 本文仅采用 ResNet-50 进行
训练. 从结果可以看到本文方法性能相较于其他方法均有不同幅度领先, 特别在只有 186 个标签数据的 1/16 分区
协议下, 本文方法更是超过 CPSR [42] 方法 1.3%, 即使在标签数据较多的 1/4 分区协议时也与 CPSR [42] 并列最优, 并
领先 UniMatch 和 IPixMatch 方法 0.5%, 取得了有竞争力的结果.

表 4 Cityscapes 数据集不同含标签比例的分区协议下分割性能对比 (%)

Method 1/16 (186) 1/8 (372) 1/4 (744)
Baseline 63.3 65.8 68.4
CCT [20] 66.4 72.5 75.7
GCT [52] 65.8 71.3 75.3
CPS [19] 69.8 74.3 74.6
ELN [15] － 70.3 73.5
U2PL [41] 69.0 73.0 76.3
USRN [53] 71.2 75.0 －
CCVC [39] 74.9 76.4 77.3
UniMatch [27] 75.0 76.8 77.5
CPSR [42] 75.5 77.3 78.0
VC3 [44] 74.8 76.8 77.2
IPixMatch [43] 74.1 76.0 77.5
Ours 76.8 77.5 78.0

从图 7 中可以看到本文交叉监督的差异化特征提取方法的合理性, 语义分支对于主体区域的识别更加准确,
细节纹理分支可以保留关注更多细节信息, 而边缘分支更多的关注图像中的边界区域. 语义分支和纹理分支提取
不同的信息, 保障了不同分支之间的差异性, 解决了现有半监督语义分割方法网络分支同化的缺陷.
在图 8 中, 展示了本文方法在 1/4 分区下的 Cityscapes 数据集上的分割效果, 可以看出, 本文方法在各种难以
识别分割的区域都有明显的改善. 本文的方法在识别和分割形状边缘更加明显的信号灯、信号牌等小目标物体时
表现出更强的能力. 相比于其他方法, 第 2 行分割效果图中细粒度更高的 bus 分割任务中, 本文的方法能够更准确
地区分对应像素类别, 而其他方法会将部分区域错误标记为 car. 此外, 在第 3 行具有长连续区域分割效果展示的
sidewalk 分割任务中, 本文的方法在处理边缘区域时表现更出色, 具有更好的连续性.

476 477 478 479 480 481 482 483 484 485 486