Page 330 - 《软件学报》2024年第4期
P. 330

1908                                                       软件学报  2024  年第  35  卷第  4  期


                                            表 5    多级融合解码器层数的消融实验结果

                                   DUT                        NLPR                      NJU2K
                  层数
                         S↑    F β ↑  E ξ ↑  MAE↓    S↑    F β ↑  E ξ ↑  MAE↓   S↑    F β ↑  E ξ ↑  MAE↓
                   2    0.934  0.932  0.960  0.028  0.920  0.888  0.953  0.025  0.914  0.902  0.923  0.039
                   3    0.937  0.933  0.960  0.026  0.935  0.905  0.965  0.019  0.923  0.913  0.922  0.032
                   4    0.922  0.918  0.943  0.035  0.914  0.883  0.952  0.028  0.901  0.888  0.910  0.046

                  3.4.2    全局感知特征增强模块的有效性
                    在这一部分, 我们去掉全局感知特征增强模块作为基线模型. 第                    2  个实验, 将全局感知特征增强模块的渐进上
                 采样融合模块     (UFM) 替换为  2×、4×上采样. 第    3  个实验, 使用本文提出的全局感知特征增强模块.
                    根据表   3  的结果可以看出, 我们的全局感知特征增强模块能够有效增强融合特征, 改善了检测结果. 这得益
                 于  Transformer 中的自注意力机制, 通过自注意力机制, 能够对图像信息进行全局交互, 从而获得更大范围尺度上
                 的高级语义信息, 这对定位显著目标起到决定性的影响. 并且, 从实验                    (b) 和实验  (c) 的对比可以看出, 相比于直接
                 上采样, UFM  采取逐级融合邻层特征再上采样的方式, 以邻层特征互为指导, 可以减轻噪声的负面影响, 获得更好
                 的检测结果.
                  3.4.3    多级融合解码器的有效性
                    为了验证多级融合解码器的有效性, 我们将多级融合解码器替换为单层卷积构成的解码器作为基线模型, 并
                 对比了多级融合解码器        (MFD) 和未融合低级特征的多级解码器            (MFD') 的性能差距. 根据表     4  的结果, 我们可以
                 看出, 相比于单层卷积解码器, 我们的多级融合解码器借助残差卷积块, 能进一步提取并保留有效的显著信息, 减
                 轻低级特征中噪声的干扰. 同时, 可以看出融合低级特征能够显著提升检测效果, 这是由于低级特征中包含了大量
                 边缘信息, 在提取高级特征的过程中往往会丢失, 通过这种方式能够得到有效补充, 以实现显著目标的精确分割.
                 最后, 我们对残差卷积模块        (RCM) 的层数进行消融分析. 我们从表          5  的结果可以看出, 当层数为       3  时具有最好的
                 检测结果.
                  4   结 论

                    我们针对    RGB-D  显著目标检测如何更好地挖掘局部和全局信息的问题, 从                  CNN  和  Transformer 各自的优势
                 及局限性出发将      Transformer 与  U-Net 框架相结合, 设计了一个新的     RGB-D  显著目标检测框架. 我们利用跨模态
                 交互融合模块对深度特征和          RGB  特征进行互补融合, 并利用       Transformer 全局感知特征增强模块学习不同层级高
                 级特征间的长距离依赖关系以增强特征表示. 此外, 设计了多级融合解码器以实现显著特征图的精确生成. 在                                 5  个
                 数据集上的实验结果表明, 该方法与其他最新算法相比较将性能提升到了一个新的水平. 但                             Transformer 中自注意
                 力机制的计算量会随着数据量呈平方复杂度增长, 这限制了模型的扩展. 后续研究工作中, 我们将扩展本文模型,
                 尝试优化自注意力中的二次运算, 同时针对边缘细节细化问题进行进一步的研究, 并将其推广到                              RGB-T  显著性目
                 标检测任务中.

                 References:
                  [1]  Borji A, Cheng MM, Jiang HZ, Li J. Salient object detection: A benchmark. IEEE Trans. on Image Processing, 2015, 24(12): 5706–5722.
                     [doi: 10.1109/TIP.2015.2487833]
                  [2]  Wang WG, Lai QX, Fu HZ, Shen JB, Ling HB, Yang RG. Salient object detection in the deep learning era: An in-depth survey. IEEE
                     Trans. on Pattern Analysis and Machine Intelligence, 2022, 44(6): 3239–3259. [doi: 10.1109/TPAMI.2021.3051099]
                  [3]  Cheng MM, Zhang ZM, Lin WY, Torr P. BING: Binarized normed gradients for objectness estimation at 300 fps. In: Proc. of the 2014
                     IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Columbus: IEEE, 2014. 3286–3293. [doi: 10.1109/CVPR.2014.414]
                  [4]  Cheng  MM,  Hou  QB,  Zhang  SH,  Rosin  PL.  Intelligent  visual  media  processing:  When  graphics  meets  vision.  Journal  of  Computer
                     Science and Technology, 2017, 32(1): 110–121. [doi: 10.1007/s11390-017-1681-7]
                  [5]  Wang WG, Shen JB, Yang RG, Porikli F. Saliency-aware video object segmentation. IEEE Trans. on Pattern Analysis and Machine
   325   326   327   328   329   330   331   332   333   334   335