Page 472 - 《软件学报》2025年第12期
P. 472

陈亚当 等: 基于差异化特征提取的交叉半监督语义分割网络                                                    5853


                 端损失学习阶段未能有效考虑差异化. 相同的分支推理架构和末端监督信号都会促进各分支的学习路径趋于一
                 致, 导致分支网络同化.
                    针对上述阶段差异化不足导致的网络同化问题                 [26−29] , 本文结合强弱对比增强方案创造源端差异的基础上, 进
                 一步引入差异化特征提取策略和交叉融合伪标签方法, 从推理阶段和末端损失学习阶段有效解决了网络分支同化
                 的问题, 由此提出基于差异化特征提取的交叉半监督语义分割网络, 如图                      1  下半部分所示.
                    本文采用差异化特征提取策略, 使各分支分别提取细节纹理、语义上下文和边缘形状信息. 细节纹理集中于
                 网络的低层特征, 而语义上下文则位于高层特征, 从而在网络的深度分布上保证了分支差异化. 细节纹理和语义上
                 下文分支执行语义分割任务, 而边缘形状分支生成二值图, 仅划分边缘和非边缘区域, 任务的不同使边缘形状分支
                 信息自然与其他分支产生差异. 综上, 通过在网络层次与任务导向上的差异化设计, 确保了分支信号多样性, 有效
                 避免了推理阶段信息差异不足的问题.
                    本文设计了一种交叉融合伪标签方法, 通过邻域像素的置信度优化伪标签生成. 具体而言, 各网络分支融合邻
                 域像素的置信度, 并生成用于其他分支的监督信号. 在网络末端的监督过程中, 不同分支接受不同的监督信号, 分
                 支之间的学习路径被分化, 避免了所有分支共享相同的监督信号而导致的错误同化积累. 同时, 邻域像素的置信度
                 融合进一步提高了伪标签的质量, 减少了高置信度错误预测对其他分支的负面影响. 这种方法从根本上打破了传
                 统伪标签方案中各分支在监督信号上的一致性, 从而解决了末端损失学习同化的问题.
                    本文在多个半监督语义分割基准数据集上验证了所提出方法的性能. 相比于最新方法, 本文方法在                                  Classic
                 Pascal VOC 2012 (732  张标签训练图像) [30] 上拥有了  0.3%  的  mIoU  提升, 在  Cityscapes (186  张标签训练图像) [31] 上
                 也有了   1.3%  的  mIoU  提升. 上述实验均在相同骨干网络下进行, 结果充分证明了所提出方法的合理性和有效性.

                  1   相关工作

                    为减少对大规模全标签数据集的依赖, 半监督学习方法提出了一种利用少量标注数据和大量未标注数据相结
                 合的方式来训练网络模型         [16,32−34] .
                    一种直观的解决方案是为无标签数据生成相应的监督信号, 即伪标签方法                         [15−17] . 例如在  PseudoSeg [17] 中, 无标
                 签数据的监督信号来源于模型自身预测的高置信度结果. 然而高置信度伪标签出现错误时, 会干扰网络的收敛过
                 程, 进而导致确认偏差问题.
                    因此, 半监督方法提出了一种基于多分支网络架构的策略, 即使用弱数据增强处理的输入预测生成伪标签, 然
                 后将这些伪标签作为监督信号, 用于训练经过强数据增强处理的输入预测                           [35−38] . 例如, 在半监督分类领域中,
                 FixMatch [35] 通过强弱对比的数据增强策略对网络进行训练. 尽管这种方法避免了模型自身生成监督信号的局限,
                 但由于两个网络分支共享权重, 导致它们的收敛方向趋于一致, 未能彻底消除确认偏差问题. 此外, 该方法依赖于
                 手动设计的数据增强策略, 难以找到最优的增强方案.
                    为了避免网络同化导致的确认偏差, 需要确保不同分支能够提取差异化且互补的特征信息. 因此, 部分半监督
                 语义分割研究从网络源端输入入手, 通过设计使各分支在特征提取过程中具备足够的差异性, 确保当某个分支出
                 现错误预测时, 其他分支能够进行纠正. 例如, CCT (cross-consistency training)   [20] 方法引入了特征扰动, 通过对不同
                 网络分支编码后的特征进行          Dropout 扰动, 保证解码器输入的信息存在差异性. UniMatch          [27] 结合了 FixMatch [35] 和
                 CCT [20] 的思想, 通过多个图像增强分支和特征扰动来增加分支信息的多样性. 然而, 这些方法依赖于人工设计的扰
                 动方案, 难以确保不同分支能够提取出足够差异化的特征, 也难以找到最优的方案.
                    因此, 部分研究从推理架构层面入手, 尝试更根本地解决这一问题. 例如                     CPS (cross pseudo supervision) [19] 通过
                 对不同的网络分支进行初始化, 期望它们收敛到不同的解决方案, 然而该方法依赖于多分支网络的数量, 不仅增加
                 了模型的参数量, 还导致性能提升与资源消耗不成正比. 此外, 相同的监督信号可能会引导各分支收敛至相似的解
                 决方案. CCVC (conflict-based cross-view consistency) [39] 引入特征差异损失, 强制不同分支提取差异化的特征, 以避
                 免网络同化的问题, 但其特征差异损失依赖线性映射, 难以确保特征的充分差异化. PCR (prototype-based
   467   468   469   470   471   472   473   474   475   476   477