Page 480 - 《软件学报》2025年第12期

P. 480

陈亚当等: 基于差异化特征提取的交叉半监督语义分割网络 5861

表 2 Cityscapes 数据集上的部分超参数设置

参数名称数值描述
BackBone ResNet-50 使用ResNet公共网络进行基础特征提取
初始学习率 0.005 使用SGD进行优化
BatchSize 8 每个GPU分配的BatchSize
epochs 250 总训练轮次
CropSize 712 随机裁剪尺寸
权重衰减 0.000 5 防止过拟合
数据增强旋转、翻转、裁剪、CutMix等提高泛化能力
边缘检测 Canny(0.1, 0.2) 算法提取边缘标签
损失函数交叉熵+一致性损失 λ u 、 λ l 均为1.0
伪标签策略初始阈值0.4 阈值随训练进度调整
优化策略学习率衰减采用 poly learning rate

3.3 对比实验
为了验证本文方法有效性, 在不同基准数据集下对比了最新的半监督语义分割方法, 包括 PCR [40] , CCVC [39]
等. 此外还展示了仅使用标记数据的监督训练的结果 (记为 Baseline). 由于半监督语义分割现有方案对比均基于相
同 BackBone 下的 mIoU 对比, 因此本文也遵循现有的对比原则, 并未对参数量和推理速度等指标进行对比.
首先在原始 Pascal VOC 2012 数据集 [30] 上选用 ResNet-101 作为骨干网络验证了本文方法与其他方法的性能
表现, 结果如表 3 所示, 红色最优, 蓝色次之. 可以看到本文方法在不同有标签比例的分区协议 (分区协议 1/n 表示
将 1/n 图像作为标签数据集, 其余图像作为无标签数据集) 下都拥有较强的竞争力. 本文方法在 1/2 分区协议下领
先 UniMatch [27] 0.3%, 在 1/4 和 full 分区协议下仅分别落后 UniMatch [27] 0.2% 和 0.1%. 然而在 1/16 分区下, 本文方
法性能相较 UniMatch 落后最多, 差距为 2.6%. 这一结果侧面印证了尽管本文方法在标签数据较少的情况下仍表
现出较强的性能, 但在标签数据极为稀缺的情况下仍存在进一步优化的空间.

表 3 不同含标签比例的分区协议下 Classic Pascal VOC 2012 [30] 数据集
和 Blender Pascal VOC 2012 [48] 数据集的性能对比 (%)

Classic Pascal VOC 2012 Blender Pascal VOC 2012
方法
1/16 (92) 1/8 (183) 1/4 (366) 1/2 (732) Full (1 464) 1/16 (662) 1/8 (1 323) 1/4 (2 646)
Baseline 45.1 55.3 64.8 69.7 73.5 67.5 71.1 74.2
[17]
Pseudo 57.6 65.5 69.1 72.4 73.2 －－－
[19]
CPS 64.1 67.4 71.7 75.9 － 74.5 76.4 77.7
[49]
RC2L 65.3 68.9 72.2 77.1 79.3 －－－
[40]
PCR 70.1 74.7 77.2 78.5 80.7 78.6 80.7 80.8
[39]
CCVC 70.2 74.4 77.4 79.1 80.5 77.2 78.4 79.0
[50]
S4MC 71.0 71.7 75.4 77.7 80.6 78.5 79.7 79.9
[27]
UniMatch 75.2 77.2 78.8 79.9 81.2 78.1 78.4 80.4
[51]
MLLC 70.6 74.3 77.4 79.3 － 78.9 80.3 80.8
[43]
IPixMatch 73.9 74.6 77.1 78.9 79.4 77.2 78.2 78.8
Ours 72.6 76.3 78.6 80.2 81.1 80.7 82.1 81.8

此外还进一步验证了本文方法在 Blender Pascal VOC 2012 数据集 [48] 上的性能表现, 仅使用 ResNet-101 作为
骨干网络的结果展示在表 3 中. 本文方法在 1/4 的划分比例下超过 PCR [40] 和 MLLC [51] 方法 1.0%, 在标签数据更少
的 1/16 分区协议下也拥有相较于 MLLC [51] 2.1% 的性能领先, 上述实验结果证实了本文方法的有效性.
本文对不同方法性能差异的原因进行了深入分析. PseudoSeg [17] 方法仅对无标签图像生成伪标签作为监督信

475 476 477 478 479 480 481 482 483 484 485