Page 324 - 《软件学报》2024年第4期
P. 324

1902                                                       软件学报  2024  年第  35  卷第  4  期


                 接结构生成不同大小感受野的动态过滤器, 实现深度引导融合. Chen                   等人  [49] 引入深度潜能感知对深度图的潜力进
                 行建模, 并在网络后期融合特征, 整合了跨模态互补性.
                    在本文中, 我们将利用注意力机制, 实现深度特征和               RGB  特征的交互融合; 并且, 为了减轻低质量深度图带来
                 的负面影响, 将跨模态特征作为         RGB  特征的补充.
                  1.2   Transformer 网络
                    Transformer 网络由  Vaswani 等人  [31] 首次提出并应用于机器翻译任务后, 在自然语言处理             (natural language
                 processing, NLP) 领域取得了巨大的成功. 借助于自注意力机制, Transformer 网络能够捕获输入序列元素间的长期
                 依赖关系, 这一特性对于计算机视觉任务也能提供巨大的帮助. 因此, 近年来在计算机视觉领域出现了大量基于
                 Transformer 模型的相关研究成果, 如目标检测        [50,51] 、目标跟踪  [52] 、姿态估计  [53] 、图像分类  [54,55] 、语义分割  [56,57]
                 等. 其中, ViT [54] 将图像分割成一系列平面化的二维块, 然后采用            Transformer 对图像进行分类, 在图像分类任务中
                 取得了巨大的突破. Wang      等人  [58] 提出了一种适用于密集预测任务的         ViT  金字塔结构. Zhu  等人  [59] 将  Transformer
                 引入  SOD  任务, 并首次与深度监督策略相结合, 提出了一种基于               Swin Transformer 的深度监督模型. 此外, 在医学
                 图像分割领域, Chen    等人提出了    TransUNet [60] , 以预训练的  ViT  作为骨干网络, 并采取  U-Net  [61] 网络架构, 取得了
                 良好的结果.
                    基于卷积运算的       CNN  模型在提取局部特征时更有优势, 而          Transformer 能够更好地捕获远程相关性. 基于它
                 们的特性, 出现了一些       CNN  与  Transformer 的混合结构, 充分发挥两者的优势. MaX-DeepLab     [62] 采取双路径架构,
                 引入全局内存路径实现全局交互, 构建了一个用于全景分割的端到端模型. TransFuse                     [63] 提出了一种并行分支架构,
                 通过  CNN  分支提取空间细节, 通过       Transformer 分支捕获全局依赖关系. Luo       等人  [64] 提出了一种基于   CNN  和
                                                                                      [65]
                 Transformer 的半监督交叉学习方法, 用一个网络的预测端到端地监督另一个网络. TANet                     提出了一种非对称网
                 络, 通过  Transformer 主干提取全局信息, 再利用轻量级        CNN  主干提取空间结构信息相结合. TransT         [66] 通过孪生
                 CNN  作为主干网络进行特征提取, 并基于自注意力和交叉注意力机制实现特征增强与融合. CoTr                          [67] 通过  CNN  提
                 取特征表示, 并构建一种可变形         Transformer (DeTrans) 获取远程依赖关系.
                    借鉴上述思想, 本文将       CNN  与  Transformer 相结合, 并将  Transformer 全局感知特征增强模块嵌入     U-Net 框架
                 中, 充分结合两种框架的优点, 将检测性能提升到了一个新的水平.
                  2   本文方法

                    我们提出一种基于       CNN-Transformer 框架的  RGB-D  显著性目标检测网络, 如后文图        2  所示. 该网络由跨模态
                 融合编码器、全局感知特征增强模块和多级融合解码器组成, 利用                      Transformer 更充分地获取图像的全局信息, 提
                 高检测性能. 首先, 双流骨干网络从          RGB  图像和深度图像中分别提取特征. 接着, 利用跨模态交互融合模块                   (CIF)
                 进行跨模态的特征融合, 并将融合特征与             RGB  特征结合作为更高层的输入. 然后, 通过渐进上采样融合将高                  3  层
                 的特征转化为相同的尺寸并进行融合, 再将其输入全局感知特征增强模块. 最后, 将得到的增强的高级特征和低两
                 层特征, 输入到多级融合解码器中进行解码, 得到最终的显著预测图.
                  2.1   跨模态融合编码器
                    在  SOD  任务中, 不同模态的输入包含不同的信息, RGB            图像包含丰富的色彩信息和纹理信息, 而深度图像则
                 侧重于空间位置信息. 此外, 在训练和测试过程中, 并不能保证深度图的质量, 低质量的深度图容易影响检测结果.
                 针对上述问题, 我们设计了跨模态交互融合模块               (如图  3  所示), 用于实现跨模态信息的交互融合, 并减轻低质量深
                 度图的负面影响. 图      3  中, 对深度特征和   RGB  特征在通道维度上级联后, 利用两个一维池化操作给特征图嵌入方
                 向信息. 然后进行级联并输入转换层, 经过转换层压缩通道并且编码空间信息, 这里是通过一个卷积层来实现的.
                 之后将编码后的信息沿        x、y 方向分离, 再通过编码注意力层在各自方向上生成编码注意力图, 并与输入特征图相
                 乘来实现通道注意力感知. 最后输入到空间注意力模块中, 并将输出与输入相乘以获取空间注意力感知. 这一过程
                 可以描述为:
   319   320   321   322   323   324   325   326   327   328   329