Page 327 - 《软件学报》2024年第4期
P. 327

孙福明 等: 跨模态交互融合与全局感知的            RGB-D  显著性目标检测                                  1905


                 验验证了这种方式可以取得较好的预测结果, 具体过程如下所示:
                                                                         r
                                                                             r
                                            ′′
                                          F = RCM (Cat(RCM (Cat(RCM (F ),F )),F ))                    (5)
                                                                      ′
                                                  1        2       3  H  2   1
                    最后, 输出的特征     F  ′′  通过  1×1  卷积操作生成最终的显著图    S final . 在训练过程中, 该显著图由真值图监督生成
                 损失. 在这里, 我们采用像素位置感知损失            (pixel position aware loss) 用于端到端的训练, 总体损失定义为:
                                                           s
                                                       L = L (S final ,G)                              (6)
                                                          ppa
                 其中, G  是真值显著图.
                  3   实验结果
                  3.1   数据集和评价指标
                    我们在   5  个具有挑战性的     RGB-D  数据集上对本文提出的方法进行了评估. DUT             [16] 包含  Lytro  相机在现实生
                 活场景中捕获的      1 200  张图像; NLPR [21] 包括具有单个或多个显著对象的       1 000  张图像; NJU2K [71] 包括  2 003  张不同
                 分辨率的立体图像; SIP     [72] 包含  1 000  幅突出人物的高分辨率图像; DES    [73] 包含  135  幅由微软  Kinect 采集的室内
                 图像.
                    为了公平比较, 我们采取与文献           [72,74] 中相同的训练数据集, 包括      NJU2K  数据集的   1 485  幅图像和  NLPR
                 数据集的   700  幅图像, 合计  2 185  个样本来训练检测算法. NJU2K      和  NLPR  数据集的剩余图像以及       SIP、DUT  和
                 DES  的整个数据集用于测试. 此外, 在        DUT  数据集上, 我们遵循与文献       [75−77] 中相同的设置, 从    DUT  添加额外
                 的  800  对用于训练, 其余  400  对用于测试.
                    评估时, 我们采用了       4  个广泛使用的评价指标, 即       E  指标  [78] 、S  指标  [79] 、F  指标  [80] 和平均绝对误差  (mean
                 absolute error, MAE) [81] . E  指标用来衡量局部像素级误差和全局图像级误差; S     指标评估显著图的区域感知和对象
                 感知的空间结构相似性; F        指标是查准率和查全率的加权调和均值, 用来评价系统的整体性能; MAE                      测量显著图
                 和真值图之间的每像素绝对差值的平均值. 在实验中, E                指标和   F  指标均采用了自适应的值.
                  3.2   实施细节
                    在训练和测试阶段, 输入        RGB  图和深度图像尺寸调整为         256×256. 采用多种增强策略增强所有训练图像, 即
                 随机翻转、旋转和边界剪切. 骨干网络的参数使用                Res2Net-50  网络的预训练参数进行初始化. Transformer 编码器
                 中的超参数设置为: L = 12, D = 768, N = 1024. 其余参数初始化为     PyTorch  默认设置. 我们采用    Adam  优化器  [82] 训
                 练我们的网络, Batch    为  8, 初始学习率为   1E–5, 学习率为每    60  个  Epoch  除以  10. 我们的模型在具有单个英伟达
                 GTX 3090 GPU  的机器上进行训练. 该模型在       150  个  Epoch  内收敛, 需要约  15 h.
                  3.3   与先进方法对比
                    将本文模型与      CoNet [75] 、TriTransNet [76] 、SSF [83] 、ATSA [84] 、AILNet [85] 、EBFSP [86] 、CDNet [87] 、HAINet [88] 、
                 RD3D [46] 和  DSA2F [89] 、DCF [90] 这  11  种最新的  RGB-D SOD  模型进行了比较.
                  3.3.1    定量评估
                    上文提及的     11  种最新的  RGB-D SOD  模型在  5  个广泛使用的数据集上的定量结果如表             1  所示. 最优和次优
                 结果分别用加粗和下划线表示. 表          1  中的部分统计结果, 为运行作者提供的源代码生成, 包括                (1) TriTransNet 的全
                 部结果; (2) HAINet 在  NLPR、NJU2K  数据集上的结果; (3) ATSA、SSF、AILNet、DSA2F      在  SIP  数据集上的结
                 果; (4) ATSA、CoNet、SSF、AILNet、DSA2F、DCF    在  DES  数据集上的结果. EBFSP、CDNet、RD3D       的实验
                 结果引用自文献      [76], 其余结果均来自原作者发表.
                    根据  4  个评价指标的结果可以看出, 本文提出的算法在               4  个评价指标上均取得了最好的结果, 相比于现有的
                 最新算法有显著的提升. 具体来说, 在全部            5  个数据集上, 相比于次优方法, 本文的         S  指标平均提高了     0.4%, F  指
                 标平均提高了     0.54%, E  指标平均提高了    0.34%, MAE  值平均提高了   8.9%. 实验结果直观地验证了本文算法在不
                 同数据集及评价指标下的有效性和鲁棒性.
   322   323   324   325   326   327   328   329   330   331   332