Page 322 - 《软件学报》2024年第4期
P. 322

1900                                                       软件学报  2024  年第  35  卷第  4  期


                 impact  of  low-quality  depth  maps,  the  study  also  designs  a  cross-modal  interactive  fusion  module  to  realize  cross-modal  feature  fusion.
                 Finally,  experimental  results  on  five  benchmark  datasets  show  that  the  proposed  algorithm  has  an  excellent  performance  than  other  latest
                 algorithms.
                 Key words:  salient object detection (SOD); cross-modal; global attention mechanism; RGB-D detection model

                    显著性目标检测       (salient object detection, SOD) 的目的是找到并分割图像中视觉上最显著的目标         [1,2] . 在过去
                 10  年中, 因其在目标识别     [3] 、基于内容的图像检索     [4] 、目标分割  [5] 、图像编辑  [6] 、视频分析  [7,8] 和视觉跟踪  [9,10] 中
                 的广泛应用而备受关注.
                    随着  CNN  的发展, RGB  显著性目标检测      [11,12] 逐渐突破了传统方法   [13,14] 的性能瓶颈, 取得了良好的效果. 然而,
                 在某些复杂场景      (例如, 杂乱的背景、多个对象、不同的光照、透明对象等) 中检测效果往往并不理想                          [15] , 主要原
                 因在于缺乏空间位置信息, 这对于显著性目标检测至关重要. 例如, 在某些显著性物体与背景对比度较低时, 只靠
                 RGB  图像很难区分物体与背景.
                    近年来, 带有深度信息的        RGB-D  显著性目标检测, 凭借深度图中所含丰富的空间结构、3D                  布局以及目标边
                 界等有用信息     [16] , 在具有挑战性的场景中能够取得出色的性能. 同时, 3D            成像传感器技术的快速发展          [17] , 降低了
                 深度图像的获取成本, 促进了基于          RGB-D  显著性目标检测的相关研究          [18,19] , 有效地解决了传统  SOD  存在的问题.
                 尽管如此, 现有的    RGB-D  显著性目标检测模型仍面临持续提升性能的挑战. 解决这一挑战, 可以采用如下                       2 种思路.
                    (1) 有效融合深度特征与       RGB  特征实现跨模态的信息互补. 现有的融合策略可分为                 3  类, 即早期融合、晚期
                 融合和中期融合. 早期融合方法将深度图与原始三通道                  RGB  图直接集成为四通道输入        [20,21] , 这种方式未考虑两种
                 模态的分布差距, 不能有效融合跨模态信息. 晚期融合是使用并行的双流模型生成独立的显著性图, 然后将两个图
                 进行融合得出最终特征. 这种方法忽略了             RGB  图描述图片的颜色和纹理信息及深度图描述不同位置对比度信息
                 的事实. 最近的研究主要集中在中期融合策略上, 该策略利用两个独立的网络分别学习两种模式的中间特征, 然后
                 将融合后的特征反馈给后续的网络或解码器. 例如                Zhu  等人  [22] 利用一个独立的子网络来提取深度特征, 然后将这
                 些特征直接合并到       RGB  网络中  (如图  1(a) 所示). Fan  等人  [23] 从通道和空间注意力中挖掘深度信息线索, 然后将深
                 度信息以辅助方式融合进         RGB  特征中  (如图  1(b) 所示). 需要注意的是, 上述方法主要侧重于将每一级的深度特征
                 直接或者增强后作为辅助信息融入            RGB  特征中, 然后使用解码器生成最终的显著性图. 上述融合策略并未实现深
                 度特征与   RGB  特征的双向交互, 导致      SOD  在一些深度特征较差的情况下所取得的检测效果并不理想. 在本文中,
                 我们通过采用一种双向交互融合的方式, 将融合特征作为                  RGB  特征的补充    (如图  1(c) 所示), 以降低低质量深度图
                 带来的负面影响.

                                         RGB                                  P
                                         Depth
                                                     (a) 深度附加融合
                                         RGB                                  P
                                                  Enhance  Enhance  Enhance  Enhance  Enhance
                                         Depth
                                                     (b) 深度增强融合
                                         RGB                                  P
                                                  Enhance  Enhance  Enhance  Enhance  Enhance
                                         Depth
                                                     (c) 双向交互融合
                                       图 1 RGB-D  显著性目标检测跨模态特征融合策略比较

                    (2) 减轻图像特征表示过程中的图像信息损失. CNN              使用了大量的卷积、池化操作, 这些操作导致图像特征
                 表示会损失大量的图像信息. 对于该问题, 现有的一些方法主要是通过逐层集成特征的方式来进行特征信息的补
   317   318   319   320   321   322   323   324   325   326   327