Page 327 - 《软件学报》2024年第4期
P. 327
孙福明 等: 跨模态交互融合与全局感知的 RGB-D 显著性目标检测 1905
验验证了这种方式可以取得较好的预测结果, 具体过程如下所示:
r
r
′′
F = RCM (Cat(RCM (Cat(RCM (F ),F )),F )) (5)
′
1 2 3 H 2 1
最后, 输出的特征 F ′′ 通过 1×1 卷积操作生成最终的显著图 S final . 在训练过程中, 该显著图由真值图监督生成
损失. 在这里, 我们采用像素位置感知损失 (pixel position aware loss) 用于端到端的训练, 总体损失定义为:
s
L = L (S final ,G) (6)
ppa
其中, G 是真值显著图.
3 实验结果
3.1 数据集和评价指标
我们在 5 个具有挑战性的 RGB-D 数据集上对本文提出的方法进行了评估. DUT [16] 包含 Lytro 相机在现实生
活场景中捕获的 1 200 张图像; NLPR [21] 包括具有单个或多个显著对象的 1 000 张图像; NJU2K [71] 包括 2 003 张不同
分辨率的立体图像; SIP [72] 包含 1 000 幅突出人物的高分辨率图像; DES [73] 包含 135 幅由微软 Kinect 采集的室内
图像.
为了公平比较, 我们采取与文献 [72,74] 中相同的训练数据集, 包括 NJU2K 数据集的 1 485 幅图像和 NLPR
数据集的 700 幅图像, 合计 2 185 个样本来训练检测算法. NJU2K 和 NLPR 数据集的剩余图像以及 SIP、DUT 和
DES 的整个数据集用于测试. 此外, 在 DUT 数据集上, 我们遵循与文献 [75−77] 中相同的设置, 从 DUT 添加额外
的 800 对用于训练, 其余 400 对用于测试.
评估时, 我们采用了 4 个广泛使用的评价指标, 即 E 指标 [78] 、S 指标 [79] 、F 指标 [80] 和平均绝对误差 (mean
absolute error, MAE) [81] . E 指标用来衡量局部像素级误差和全局图像级误差; S 指标评估显著图的区域感知和对象
感知的空间结构相似性; F 指标是查准率和查全率的加权调和均值, 用来评价系统的整体性能; MAE 测量显著图
和真值图之间的每像素绝对差值的平均值. 在实验中, E 指标和 F 指标均采用了自适应的值.
3.2 实施细节
在训练和测试阶段, 输入 RGB 图和深度图像尺寸调整为 256×256. 采用多种增强策略增强所有训练图像, 即
随机翻转、旋转和边界剪切. 骨干网络的参数使用 Res2Net-50 网络的预训练参数进行初始化. Transformer 编码器
中的超参数设置为: L = 12, D = 768, N = 1024. 其余参数初始化为 PyTorch 默认设置. 我们采用 Adam 优化器 [82] 训
练我们的网络, Batch 为 8, 初始学习率为 1E–5, 学习率为每 60 个 Epoch 除以 10. 我们的模型在具有单个英伟达
GTX 3090 GPU 的机器上进行训练. 该模型在 150 个 Epoch 内收敛, 需要约 15 h.
3.3 与先进方法对比
将本文模型与 CoNet [75] 、TriTransNet [76] 、SSF [83] 、ATSA [84] 、AILNet [85] 、EBFSP [86] 、CDNet [87] 、HAINet [88] 、
RD3D [46] 和 DSA2F [89] 、DCF [90] 这 11 种最新的 RGB-D SOD 模型进行了比较.
3.3.1 定量评估
上文提及的 11 种最新的 RGB-D SOD 模型在 5 个广泛使用的数据集上的定量结果如表 1 所示. 最优和次优
结果分别用加粗和下划线表示. 表 1 中的部分统计结果, 为运行作者提供的源代码生成, 包括 (1) TriTransNet 的全
部结果; (2) HAINet 在 NLPR、NJU2K 数据集上的结果; (3) ATSA、SSF、AILNet、DSA2F 在 SIP 数据集上的结
果; (4) ATSA、CoNet、SSF、AILNet、DSA2F、DCF 在 DES 数据集上的结果. EBFSP、CDNet、RD3D 的实验
结果引用自文献 [76], 其余结果均来自原作者发表.
根据 4 个评价指标的结果可以看出, 本文提出的算法在 4 个评价指标上均取得了最好的结果, 相比于现有的
最新算法有显著的提升. 具体来说, 在全部 5 个数据集上, 相比于次优方法, 本文的 S 指标平均提高了 0.4%, F 指
标平均提高了 0.54%, E 指标平均提高了 0.34%, MAE 值平均提高了 8.9%. 实验结果直观地验证了本文算法在不
同数据集及评价指标下的有效性和鲁棒性.