Page 323 - 《软件学报》2024年第4期
P. 323

孙福明 等: 跨模态交互融合与全局感知的            RGB-D  显著性目标检测                                  1901


                 充. 一些方法   [24−26] 以完全连接的方式或启发式的方式组合来自多个层的特征. 然而, 集成过多的特征和不同分辨率
                 之间缺乏平衡容易导致计算成本高、大量噪声和融合困难, 从而干扰自顶向下路径中的后续信息恢复. 此外, Atrus
                                                                 [27]
                 空间金字塔池模块      (atrous spatial pyramid pooling module, ASPP) 和全局上下文模块  (global context module, GCM) [23]
                 用于提取多尺度上下文感知特征并增强单层表示                 [28−30]. . 然而, 现有的  CNN  方法主要通过增大感受野的方式以获
                 取全局信息, 这种操作会导致图像分辨率下降以及大量语义信息丢失. 最近, Transformer                   [31] 架构在计算机视觉领域
                 引起了广泛的关注. 与利用滑动窗口卷积运算而聚焦于图像局部的                      CNN  不同, Transformer 在编码层和解码层中
                 多次堆叠自注意力层, 利用自注意力机制可以实现全局上下文建模, 获取长距离的依赖关系, 但在捕捉局部特征方
                 面效果不够理想, 且存在计算成本高的问题.
                    基于上述分析, 我们提出了一种新的基于跨模态交互融合与全局感知的                         RGB-D  显著性目标检测方法, 通过
                 将  Transformer 网络嵌入  U-Net 中, 从而将全局注意力机制与局部卷积结合在一起, 能够更好地对特征进行提取.
                 该方法采用    U  形结构  [32,33] 提取  RGB  和深度双流特征, 并利用多级信息重建高分辨率图, 抑制下层的干扰, 减少冗
                 余的细节. 在编码器的早期阶段进行深度特征与               RGB  特征的双向交互融合. 该渐进式的交互方式基于通道注意力
                 机制, 能够从深度特征中充分挖掘丰富的深度信息线索                   (几何结构和空间位置信息) 并将其与           RGB  特征相融合,
                 使得在编码器阶段所提取的双流特征能够互相校正和细化. 同时, 引入                     Transformer 模块用于学习高层特征的跨层
                 级间的长距离依赖关系, 更好地利用多级特征, 避免因分辨率差异过大而对特征融合造成干扰, 可以有效地增强特
                 征表示, 同时降低因卷积和池化操作产生的信息损失, 从而改善显著性目标的预测效果.
                    本文的主要贡献可以概括如下.
                    (1) 设计了一个    CNN-Transformer 网络架构, 将  Transformer 全局感知特征增强模块嵌入到        U-Net 框架中, 通
                 过  CNN  提取局部特征, 利用    Transformer 学习跨层级的长距离依赖关系以增强特征表示.
                    (2) 设计了跨模态交互融合模块, 借助注意力机制学习深度图像和                    RGB  图像之间的互补信息, 并且将跨模态
                 融合特征作为     RGB  的补充, 以充分利用不同模态的特征信息.
                    (3) 设计了一个多级融合解码器, 通过不同大小的残差卷积块逐级解码, 并且在解码的过程中融合低级特征,
                 保留了更多的原始信息.
                    (4) 采用预训练的    Res2Net 模型作为骨干网络, 进一步提升了检测精度. 在             5  个基准的  RGB-D  显著目标检测
                 数据集上的实验结果表明, 我们的方法获得了最优的性能.
                    本文第   1  节介绍  RGB-D  显著性目标检测的相关方法和研究现状. 第             2  节介绍本文构建的跨模态交互融合与
                 全局感知的    RGB-D  显著性目标检测方法. 第       3  节通过对比实验验证了所提模型的有效性. 第            4  节总结全文.

                  1   相关工作


                  1.1   RGB-D  显著性目标检测
                    在过去   20  年间, 大量  RGB  显著性目标检测方法      [34−39] 被提出并且取得了出色的性能. 然而, 在复杂场景下, 它
                 们的检测结果却不够理想, 如低对比度、小目标、复杂背景、多个物体和前景背景相似, 因此需要引入额外的辅
                 助信息来协助完成       SOD  任务. 深度线索因包含丰富的几何结构和空间位置信息, 能够有效地提高复杂场景下的检
                 测性能, 近年来被广泛应用于         SOD  任务.
                    在  RGB-D SOD  任务中, RGB  特征包含大量外观和纹理信息, 而深度特征则更侧重于三维布局和空间位置信
                 息. 如何将  RGB  特征和深度特征的互补信息进行跨模态融合, 一直是                 RGB-D  显著性目标检测任务中的一个重要
                 问题. 针对这一问题, 已经开展了大量的研究工作. Zhao             等人  [40] 设计了一致性差异聚合结构, 通过多路径融合的方
                 式, 实现跨模态和跨层次融合. Qu        等人  [41] 使用手工制作的特征向量作为输入来训练基于              CNN  的模型, 与传统方
                 法  [42−44] 相比, 取得了显著的改进. Chen  等人  [45] 通过  3D  卷积神经网络在编码器阶段进行预融合和解码器阶段进行
                 深度融合. Chen  等人  [46] 设计了一个渐进式双流网络, 其中使用跨模态残差函数和互补感知监督来探索跨模型和跨
                 层次互补. Fu  等人  [47] 将  RGB  和深度输入联合学习, 通过孪生网络挖掘有用的互补特征. Pang             等人  [48] 通过密集连
   318   319   320   321   322   323   324   325   326   327   328