Page 480 - 《软件学报》2025年第12期
P. 480

陈亚当 等: 基于差异化特征提取的交叉半监督语义分割网络                                                    5861



                                           表 2 Cityscapes 数据集上的部分超参数设置

                       参数名称                      数值                                 描述
                       BackBone                 ResNet-50               使用ResNet公共网络进行基础特征提取
                      初始学习率                      0.005                         使用SGD进行优化
                       BatchSize                   8                         每个GPU分配的BatchSize
                        epochs                    250                            总训练轮次
                       CropSize                   712                            随机裁剪尺寸
                       权重衰减                      0.000 5                         防止过拟合
                       数据增强             旋转、翻转、裁剪、CutMix等                         提高泛化能力
                       边缘检测                   Canny(0.1, 0.2)                  算法提取边缘标签
                       损失函数                 交叉熵+一致性损失                           λ u 、 λ l  均为1.0
                      伪标签策略                    初始阈值0.4                        阈值随训练进度调整
                       优化策略                    学习率衰减                          采用 poly learning rate

                  3.3   对比实验
                    为了验证本文方法有效性, 在不同基准数据集下对比了最新的半监督语义分割方法, 包括                              PCR [40] , CCVC [39]
                 等. 此外还展示了仅使用标记数据的监督训练的结果                 (记为  Baseline). 由于半监督语义分割现有方案对比均基于相
                 同  BackBone 下的  mIoU  对比, 因此本文也遵循现有的对比原则, 并未对参数量和推理速度等指标进行对比.
                    首先在原始     Pascal VOC 2012  数据集  [30] 上选用  ResNet-101  作为骨干网络验证了本文方法与其他方法的性能
                 表现, 结果如表    3  所示, 红色最优, 蓝色次之. 可以看到本文方法在不同有标签比例的分区协议                     (分区协议   1/n  表示
                 将  1/n  图像作为标签数据集, 其余图像作为无标签数据集) 下都拥有较强的竞争力. 本文方法在                        1/2  分区协议下领
                 先  UniMatch [27]  0.3%, 在  1/4  和  full 分区协议下仅分别落后  UniMatch [27]  0.2%  和  0.1%. 然而在  1/16  分区下, 本文方
                 法性能相较    UniMatch  落后最多, 差距为   2.6%. 这一结果侧面印证了尽管本文方法在标签数据较少的情况下仍表
                 现出较强的性能, 但在标签数据极为稀缺的情况下仍存在进一步优化的空间.

                                 表 3 不同含标签比例的分区协议下            Classic Pascal VOC 2012 [30] 数据集
                                        和  Blender Pascal VOC 2012 [48] 数据集的性能对比 (%)

                                           Classic Pascal VOC 2012               Blender Pascal VOC 2012
                     方法
                              1/16 (92)  1/8 (183)  1/4 (366)  1/2 (732)  Full (1 464)  1/16 (662)  1/8 (1 323)  1/4 (2 646)
                    Baseline   45.1     55.3     64.8     69.7      73.5      67.5      71.1      74.2
                        [17]
                   Pseudo      57.6     65.5     69.1     72.4      73.2       -         -         -
                       [19]
                    CPS        64.1     67.4     71.7     75.9      -         74.5      76.4      77.7
                        [49]
                    RC2L       65.3     68.9     72.2     77.1      79.3       -         -         -
                       [40]
                    PCR        70.1     74.7     77.2     78.5      80.7      78.6      80.7      80.8
                        [39]
                   CCVC        70.2     74.4     77.4     79.1      80.5      77.2      78.4      79.0
                        [50]
                    S4MC       71.0     71.7     75.4     77.7      80.6      78.5      79.7      79.9
                         [27]
                  UniMatch     75.2     77.2     78.8     79.9      81.2      78.1      78.4      80.4
                        [51]
                   MLLC        70.6     74.3     77.4     79.3      -         78.9      80.3      80.8
                         [43]
                  IPixMatch    73.9     74.6     77.1     78.9      79.4      77.2      78.2      78.8
                     Ours      72.6     76.3     78.6     80.2      81.1      80.7      82.1      81.8

                    此外还进一步验证了本文方法在            Blender Pascal VOC 2012  数据集  [48] 上的性能表现, 仅使用  ResNet-101  作为
                 骨干网络的结果展示在表         3  中. 本文方法在   1/4  的划分比例下超过    PCR [40] 和  MLLC [51] 方法  1.0%, 在标签数据更少
                 的  1/16  分区协议下也拥有相较于      MLLC [51]  2.1%  的性能领先, 上述实验结果证实了本文方法的有效性.
                    本文对不同方法性能差异的原因进行了深入分析. PseudoSeg                [17] 方法仅对无标签图像生成伪标签作为监督信
   475   476   477   478   479   480   481   482   483   484   485