Page 468 - 《软件学报》2025年第9期
P. 468
李军侠 等: 基于语义调制的弱监督语义分割 4379
的值, ˆ y pat (k) 表示第 k 个类别的预测类分数. 最后, 总损失 L total 定义为:
(11)
L total = L cls + L pat
3 实验与分析
3.1 实验细节
本文使用在 ImageNet 上预训练的 DeiT-S [25] 作为主干网络. 在训练过程中使用标准的数据增强方法, 包括随
机缩放、随机水平翻转、颜色抖动和随机裁剪. 对训练图像进行归一化处理, 并将其大小调整为 256×256, 然后裁
剪成 224×224 的大小作为网络模型输入. 使用 Adam 优化器来优化网络模型, 同时使用批量大小 64 对模型进行
了 60 个周期的训练. 损失函数采用多标签交叉熵损失, 初始学习率设置为 5E–4. 对于语义分割, 遵循前人的工作 [16]
使用基于 ResNet38 [26] 的 DeepLabv1. 在进行推理时, 使用多尺度测试以及 CRF 进行后处理, 其中 CRF 的超参数设
置如文献 [14] 所建议的. 本文所提模型是基于 PyTorch 深度学习框架实现的, 在 Ubuntu 环境下使用两张 NVIDIA
GTX 2080 Ti 显卡进行训练.
3.2 数据集与评价指标
在 PASCAL VOC 2012 [27] 和 MS COCO 2014 [28] 两个数据集上进行实验, 验证所提框架的可行性和有效性.
PASCAL VOC 2012 数据集有 21 个类别, 包括 20 个目标类和 1 个背景类. 该数据集分为 3 部分: 训练集 (包括 1 464
幅图像)、验证集 (包括 1 449 幅图像) 和测试集 (包括 1 456 幅图像). 同时遵循前人工作 [18] , 使用包含 10 582 幅图
像的扩充训练集进行训练. MS COCO 2014 数据集有 81 个类别, 包括 80 个目标类和 1 个背景类, 训练集和验证集
分别包含 82 081 副和 40 137 幅图像.
本文使用平均交并比 (mean intersection over union, mIoU) 作为评价标准来衡量所提方法在 PASCAL VOC
2012 和 MS COCO 2014 数据集上的语义分割性能. mIoU 定义为预测分割结果与真实分割结果的交集区域与并集
区域之间的比值, 其度量的是预测分割结果与真实分割结果之间的相似性. 计算公式如下:
1 k ∑ p ii
mIoU = ∑ ∑ (12)
k +1 k k
i=0 p ij + (p ji − p ii )
j=0 j=0
其中, k 表示数据集中的目标类别总数, i 表示真实值, j 表示预测值, p i 表示将真实值为 i, 预测为类别 j 的像素数量.
j
mIoU 的取值范围是 0–1 之间, 数值越高表示预测的分割结果与真实分割结果的重叠程度越好, 即预测的分割结果的
准确性越高. 此外, 从官方的 PASCAL VOC 在线评测服务器上获得 PASCAL VOC 2012 测试集上的语义分割结果.
3.3 模型复杂性
本文在表 1 展示了所提方法与 MCTformer 以及两篇 2023 年具有代表性的 SOTA 方法的比较结果, 该比较基
于计算复杂度、参数数量、推断速度、运行时间和内存占用. 从表 1 可以看出, 本文方法与 MCTformer 相比, 在
各种比较参数差距不大的情况下, 取得了更优异的效果; 而与 CLIP-ES [29] 以及 LPCAM [30] 两种最新 SOTA 方法相
比, 在仅使用它们总运行时间约 1/4 的情况下, 就达到了和它们相似的结果, 充分说明了本文所提方法的优越性.
表 1 模型复杂性比较
方法 会议 MACs (G) Params (M) FPS Time (h) Memory usage (MB)
MCTformer [14] CVPR 2022 4.7 21.7 15.5 7.7 2 507
CLIP-ES [29] CVPR 2023 17.6 149.6 1.78 35.5 1 325
LPCAM [30] CVPR 2023 55.9 70.4 3.16 35.9 6 805
本文方法 - 4.7 21.7 9.36 7.9 2 575
3.4 消融实验
3.4.1 语义调制策略的影响
为了进一步分析本文提出的语义调制策略带来的影响, 本节给出了 PASCAL VOC 2012 训练集上的类激活图

