Page 468 - 《软件学报》2025年第9期
P. 468

李军侠 等: 基于语义调制的弱监督语义分割                                                           4379


                 的值,  ˆ y pat (k) 表示第  k 个类别的预测类分数. 最后, 总损失  L total  定义为:

                                                                                                     (11)
                                                       L total = L cls + L pat

                 3   实验与分析

                 3.1   实验细节
                    本文使用在     ImageNet 上预训练的   DeiT-S [25] 作为主干网络. 在训练过程中使用标准的数据增强方法, 包括随
                 机缩放、随机水平翻转、颜色抖动和随机裁剪. 对训练图像进行归一化处理, 并将其大小调整为                              256×256, 然后裁
                 剪成  224×224  的大小作为网络模型输入. 使用        Adam  优化器来优化网络模型, 同时使用批量大小              64  对模型进行
                 了  60 个周期的训练. 损失函数采用多标签交叉熵损失, 初始学习率设置为                  5E–4. 对于语义分割, 遵循前人的工作        [16]
                 使用基于   ResNet38 [26] 的  DeepLabv1. 在进行推理时, 使用多尺度测试以及     CRF  进行后处理, 其中   CRF  的超参数设
                 置如文献   [14] 所建议的. 本文所提模型是基于         PyTorch  深度学习框架实现的, 在     Ubuntu  环境下使用两张    NVIDIA
                 GTX 2080 Ti 显卡进行训练.

                 3.2   数据集与评价指标
                    在  PASCAL VOC 2012 [27] 和  MS COCO 2014 [28] 两个数据集上进行实验, 验证所提框架的可行性和有效性.
                 PASCAL VOC 2012 数据集有   21 个类别, 包括  20 个目标类和    1 个背景类. 该数据集分为      3 部分: 训练集   (包括  1 464
                 幅图像)、验证集      (包括  1 449  幅图像) 和测试集  (包括  1 456  幅图像). 同时遵循前人工作     [18] , 使用包含  10 582  幅图
                 像的扩充训练集进行训练. MS COCO 2014        数据集有    81  个类别, 包括  80  个目标类和  1  个背景类, 训练集和验证集
                 分别包含   82 081  副和  40 137  幅图像.
                    本文使用平均交并比        (mean intersection over union, mIoU) 作为评价标准来衡量所提方法在     PASCAL VOC
                 2012  和  MS COCO 2014  数据集上的语义分割性能. mIoU    定义为预测分割结果与真实分割结果的交集区域与并集
                 区域之间的比值, 其度量的是预测分割结果与真实分割结果之间的相似性. 计算公式如下:

                                                    1   k ∑       p ii
                                             mIoU =       ∑      ∑                                   (12)
                                                   k +1     k       k
                                                       i=0    p ij +  (p ji − p ii )
                                                            j=0     j=0
                 其中, k 表示数据集中的目标类别总数, i 表示真实值, j 表示预测值, p i 表示将真实值为                i, 预测为类别   j 的像素数量.
                                                                     j
                 mIoU  的取值范围是   0–1  之间, 数值越高表示预测的分割结果与真实分割结果的重叠程度越好, 即预测的分割结果的
                 准确性越高. 此外, 从官方的      PASCAL VOC  在线评测服务器上获得        PASCAL VOC 2012  测试集上的语义分割结果.

                 3.3   模型复杂性
                    本文在表    1  展示了所提方法与     MCTformer 以及两篇   2023  年具有代表性的    SOTA  方法的比较结果, 该比较基
                 于计算复杂度、参数数量、推断速度、运行时间和内存占用. 从表                      1  可以看出, 本文方法与     MCTformer 相比, 在
                 各种比较参数差距不大的情况下, 取得了更优异的效果; 而与                   CLIP-ES [29] 以及  LPCAM [30] 两种最新  SOTA  方法相
                 比, 在仅使用它们总运行时间约         1/4  的情况下, 就达到了和它们相似的结果, 充分说明了本文所提方法的优越性.

                                                    表 1 模型复杂性比较

                              方法        会议      MACs (G)  Params (M)  FPS  Time (h)  Memory usage (MB)
                          MCTformer  [14]  CVPR 2022  4.7   21.7    15.5    7.7        2 507
                           CLIP-ES [29]  CVPR 2023  17.6    149.6   1.78    35.5       1 325
                            LPCAM [30]  CVPR 2023  55.9     70.4    3.16    35.9       6 805
                            本文方法         -         4.7      21.7    9.36    7.9        2 575

                 3.4   消融实验

                 3.4.1    语义调制策略的影响
                    为了进一步分析本文提出的语义调制策略带来的影响, 本节给出了                      PASCAL VOC 2012  训练集上的类激活图
   463   464   465   466   467   468   469   470   471   472   473