Page 479 - 《软件学报》2025年第12期
P. 479
5860 软件学报 2025 年第 36 卷第 12 期
7. 计算总损失 L = λ u L u +λ l L l
8. 更新语义分割模型参数以最小化损失 L
9. END FOR
10. epochs ← epochs + 1
11. END WHILE
3 实验结果及分析
3.1 数据集
Pascal VOC 2012 数据集 [30] 是由来自 21 个类的超过 13 000 张图像组成的半监督语义分割 (SSS) 基准数据集.
它包含 1 464 张用于训练的全注释图像, 1 449 张用于验证的图像和 1 456 张用于测试的图像. 之后又采用 Blender
Pascal VOC 2012 [48] 的渲染标记图像, 并将标记数据的数量扩展到 10 582 个. 渲染的标签图像质量较低, 其中一些
伴有噪声.
Cityscapes 是 SSS 的难度较大的来自 50 个不同城市的 30 个类别的一个基准数据集 [31] , 它专注于城市场景,
由来自 19 个类的 2 975 张带注释的训练图像, 500 张验证图像和 1 525 张测试图像组成.
3.2 实验细节
为了验证方法有效性的公平性, 本研究遵循先前方法所采用的 ResNet 骨干网络方案. 表 1 详细列出了主要网
络结构及关键超参数, 包括卷积核大小、步长、激活函数等, 以便于复现. 纹理分支 Layer3 输入来自边缘分支
Layer1 输出, 网络结构*2 指的是结构循环 2 次, 如 Conv*2 为 Conv(3, 64, 3, 2, 1)+Conv(64, 64, 3, 1, 1). 本文使用
SGD 优化器对 Pascal VOC 2012 数据集和 Cityscapes 数据集上分别设置初始学习率为 0.001 和 0.005 进行实验.
Pascal 和 Cityscapes 的 epochs, CropSize 和 BatchSize 分别设置为 [80, 512, 24], [250, 712, 8]. 在每个 batch 中标记
数据和无标记数据的数量相等, 使用 mIoU 作为语义分割评估指标. 本文在超参数 λ u 、 λ l 的设定上沿用以往研究
方法 [28,39] 的数值, 在 Pascal VOC 2012 数据集上设置为 5.0 和 2.0, 在 Cityscapes 数据集上设置为 1.0 和 1.0. 针对置
信区间细化的引入, 本文依据实验效果将伪标签阈值设置为 α 0 = 0.4, 并随着训练进度调整 α = α 0 (1+epochs/
epochs). 为了进一步提升模型的鲁棒性, 我们在训练过程中使用了 CutMix 数据增强, 并优化了学习率、损失函数
等超参数设置, 具体 Cityscapes 数据集超参数设置见表 2, 由于部分超参数的最佳设置只能通过实验验证其性能优
化效果, 无法直接验证本文方法的有效性, 因此本文仅给出了推荐的参数设置, 而未提供不同配置下的消融实验
结果.
表 1 网络结构及关键超参数
提取分支 网络层次 网络结构 输入通道 输出通道 卷积核 步长 填充
Conv1 Conv*2 3 64 3 2 1
Layer1 64 64 3 1 1
语义分支 Layer2 64 128
BasicBlock*2
Layer3 128 256 3 2 1
Layer4 256 512
Conv1 Conv*2 3 64 3 2 1
Layer1 64 64 3 1 1
Layer2 64 128 3 2 1
边缘分支
Layer3 BasicBlock*2 128 64
Layer4 64 128 3 1 1
Layer5 128 256
Layer3 64 128
纹理分支 Layer4 BasicBlock*2 128 128 3 1 1
Layer5 128 256

