Page 324 - 《软件学报》2024年第4期
P. 324
1902 软件学报 2024 年第 35 卷第 4 期
接结构生成不同大小感受野的动态过滤器, 实现深度引导融合. Chen 等人 [49] 引入深度潜能感知对深度图的潜力进
行建模, 并在网络后期融合特征, 整合了跨模态互补性.
在本文中, 我们将利用注意力机制, 实现深度特征和 RGB 特征的交互融合; 并且, 为了减轻低质量深度图带来
的负面影响, 将跨模态特征作为 RGB 特征的补充.
1.2 Transformer 网络
Transformer 网络由 Vaswani 等人 [31] 首次提出并应用于机器翻译任务后, 在自然语言处理 (natural language
processing, NLP) 领域取得了巨大的成功. 借助于自注意力机制, Transformer 网络能够捕获输入序列元素间的长期
依赖关系, 这一特性对于计算机视觉任务也能提供巨大的帮助. 因此, 近年来在计算机视觉领域出现了大量基于
Transformer 模型的相关研究成果, 如目标检测 [50,51] 、目标跟踪 [52] 、姿态估计 [53] 、图像分类 [54,55] 、语义分割 [56,57]
等. 其中, ViT [54] 将图像分割成一系列平面化的二维块, 然后采用 Transformer 对图像进行分类, 在图像分类任务中
取得了巨大的突破. Wang 等人 [58] 提出了一种适用于密集预测任务的 ViT 金字塔结构. Zhu 等人 [59] 将 Transformer
引入 SOD 任务, 并首次与深度监督策略相结合, 提出了一种基于 Swin Transformer 的深度监督模型. 此外, 在医学
图像分割领域, Chen 等人提出了 TransUNet [60] , 以预训练的 ViT 作为骨干网络, 并采取 U-Net [61] 网络架构, 取得了
良好的结果.
基于卷积运算的 CNN 模型在提取局部特征时更有优势, 而 Transformer 能够更好地捕获远程相关性. 基于它
们的特性, 出现了一些 CNN 与 Transformer 的混合结构, 充分发挥两者的优势. MaX-DeepLab [62] 采取双路径架构,
引入全局内存路径实现全局交互, 构建了一个用于全景分割的端到端模型. TransFuse [63] 提出了一种并行分支架构,
通过 CNN 分支提取空间细节, 通过 Transformer 分支捕获全局依赖关系. Luo 等人 [64] 提出了一种基于 CNN 和
[65]
Transformer 的半监督交叉学习方法, 用一个网络的预测端到端地监督另一个网络. TANet 提出了一种非对称网
络, 通过 Transformer 主干提取全局信息, 再利用轻量级 CNN 主干提取空间结构信息相结合. TransT [66] 通过孪生
CNN 作为主干网络进行特征提取, 并基于自注意力和交叉注意力机制实现特征增强与融合. CoTr [67] 通过 CNN 提
取特征表示, 并构建一种可变形 Transformer (DeTrans) 获取远程依赖关系.
借鉴上述思想, 本文将 CNN 与 Transformer 相结合, 并将 Transformer 全局感知特征增强模块嵌入 U-Net 框架
中, 充分结合两种框架的优点, 将检测性能提升到了一个新的水平.
2 本文方法
我们提出一种基于 CNN-Transformer 框架的 RGB-D 显著性目标检测网络, 如后文图 2 所示. 该网络由跨模态
融合编码器、全局感知特征增强模块和多级融合解码器组成, 利用 Transformer 更充分地获取图像的全局信息, 提
高检测性能. 首先, 双流骨干网络从 RGB 图像和深度图像中分别提取特征. 接着, 利用跨模态交互融合模块 (CIF)
进行跨模态的特征融合, 并将融合特征与 RGB 特征结合作为更高层的输入. 然后, 通过渐进上采样融合将高 3 层
的特征转化为相同的尺寸并进行融合, 再将其输入全局感知特征增强模块. 最后, 将得到的增强的高级特征和低两
层特征, 输入到多级融合解码器中进行解码, 得到最终的显著预测图.
2.1 跨模态融合编码器
在 SOD 任务中, 不同模态的输入包含不同的信息, RGB 图像包含丰富的色彩信息和纹理信息, 而深度图像则
侧重于空间位置信息. 此外, 在训练和测试过程中, 并不能保证深度图的质量, 低质量的深度图容易影响检测结果.
针对上述问题, 我们设计了跨模态交互融合模块 (如图 3 所示), 用于实现跨模态信息的交互融合, 并减轻低质量深
度图的负面影响. 图 3 中, 对深度特征和 RGB 特征在通道维度上级联后, 利用两个一维池化操作给特征图嵌入方
向信息. 然后进行级联并输入转换层, 经过转换层压缩通道并且编码空间信息, 这里是通过一个卷积层来实现的.
之后将编码后的信息沿 x、y 方向分离, 再通过编码注意力层在各自方向上生成编码注意力图, 并与输入特征图相
乘来实现通道注意力感知. 最后输入到空间注意力模块中, 并将输出与输入相乘以获取空间注意力感知. 这一过程
可以描述为: