Page 469 - 《软件学报》2025年第9期
P. 469

4380                                                       软件学报  2025  年第  36  卷第  9  期


                 结果以及验证集上的分割结果, 如表           2  所示. 在这里, 使用   MCTformer [14] 作为基准模型, 该模型没有使用语义调制
                 策略, 它对应的类激活图       mIoU  和分割结果    mIoU  分别为  61.7%  和  71.9%. 本文所提框架使用了语义调制策略, 对
                 应的类激活图     mIoU  和分割  mIoU  分别为  63.6%  和  72.7%, 分别比基准模型提升了   1.9%  和  0.8%. 该结果充分证明
                 了语义调制策略的有效性.

                                                表 2 语义调制策略的影响         (%)

                                   方法                  类激活图mIoU                  分割mIoU
                                   基准                      61.7                    71.9
                                 本文方法                      63.6                    72.7

                    在语义调制策略中, 当对类与某个区域块之间的注意力进行调节时, 首先会将与当前区域块语义相关的区域
                 块选择出来, 然后对语义相关块的注意力进行计算以获得注意力调节因子, 之后再进行注意力调节. 由于选择不同
                 数量的语义相关块所带来的影响是不同的. 本节设置了                  5  个不同的语义相关块数量占比, 分别为总块数的               10%、
                 20%、30%、40%、50%, 并给出了      PASCAL VOC 2012  训练集上对应的类激活图结果, 如图           5  所示. 发现当选择
                 的语义相关块数量比为         30%  时, 获得了最好的    mIoU  结果. 因此, 在本文中将选择的语义相关块数量占比设置为
                 30%, 此时语义相关块对类与块之间注意力误差的调节效果最好, 对应的类激活图质量最高.
                    在本文中, 使用公式      (4) 对类与块间注意力进行调节, 其中          α 为调制系数, 不同的调制系数所带来的影响是不
                                  α 进行分析, 并在表     3  中给出了  PASCAL VOC 2012  训练集上的类激活图对比结果. 从表          3
                 同的, 下面对调制系数
                 可以看出, 当调制系数设置为         1.2  时对应的  mIoU  值最高, 达到了   63.6%. 因此, 在本文所有实验中, 调制系数设置
                 为     1.2, 此时, 类与块间注意力经过调节后存在的误差最少, 对应的类激活图质量最高.


                     63.7                                               表 3 调制系数对结果的影响

                                                                     α              类激活图mIoU (%)
                     63.6
                                                                     0.6                 63.45
                     63.5                                            0.8                 63.51
                    mIoU (%)  63.4                                   1.0                 63.55
                                                                                         63.60
                                                                     1.2
                     63.3                                            1.4                 63.54
                                                                     1.6                 63.52
                     63.2                                            1.8                 63.50

                        0    10   20    30   40   50   60
                                     Patches (%)
                      图 5    语义相关块数量占比对结果的影响

                 3.4.2    注意力联合优化的影响
                    本文所提框架使用       ViT  对输入图像进行特征提取并生成初始类激活图, 然而此时得到的初始类激活图会在激
                 活的目标区域周围引入了大量背景噪声, 导致背景部分过度激活, 如图                      6(b) 所示. 针对这个问题, 广泛使用的一个
                 解决方法是利用      ViT  自身产生的注意力来对过度激活的类激活图进行额外优化. 在图中展示了使用不同类型注意
                 力对初始类激活图进行优化的可视化结果, 可以发现, 单独使用区域块间注意力进行优化的效果并不好, 如图                                 6(c)
                 所示, 许多背景部分同样被过度激活, 通过分析可知, 在使用区域块间注意力优化初始类激活图的过程中所涉及的
                 主要操作是矩阵乘法, 而初始类激活图中许多激活值是错误的, 因此初始类激活图与区域块间注意力进行矩阵乘
                 法计算后得到的激活值同样是错误的, 最终导致效果不好; 单独使用类与块间注意力进行优化的效果比使用区域
                 块间注意力好, 如图      6(d) 所示, 背景噪声大大减少, 而且目标区域也能被较为准确地激活, 然而此时存在两个问题:
                 第一, 有些目标区域没有被正确激活; 第二, 有些被激活的目标区域激活值较小. 这时考虑使用类与块间注意力和
                 区域块间注意力的结合来优化初始类激活图. 因为经过类与块间注意力优化得到的类激活图中存在的错误激活值
   464   465   466   467   468   469   470   471   472   473   474