Page 328 - 《软件学报》2024年第4期
P. 328
1906 软件学报 2024 年第 35 卷第 4 期
表 1 先进算法及本文提出的算法在 5 个 RGB-D 数据集上的定量指标
数据集 指标 ATSA CoNet SSF AILNet EBFSP CDNet HAINet RD3D DSA2F DCF TriTransNet Ours
S↑ 0.918 0.918 0.915 0.926 0.858 0.880 0.910 0.931 0.921 0.924 0.928 0.933
F β ↑ 0.920 0.908 0.915 0.917 0.842 0.874 0.920 0.924 0.926 0.926 0.924 0.927
DUT
E ξ ↑ 0.948 0.941 0.946 0.951 0.890 0.918 0.944 0.949 0.950 0.952 0.952 0.958
MAE↓ 0.032 0.034 0.033 0.031 0.067 0.048 0.038 0.031 0.030 0.030 0.031 0.028
S↑ 0.907 0.907 0.914 0.912 0.909 0.902 0.924 0.930 0.918 0.922 0.921 0.931
F β ↑ 0.876 0.848 0.875 0.857 0.887 0.848 0.891 0.892 0.897 0.893 0.891 0.901
NLPR
E ξ ↑ 0.945 0.936 0.949 0.935 0.940 0.935 0.956 0.958 0.950 0.956 0.955 0.962
MAE↓ 0.028 0.031 0.026 0.029 0.028 0.032 0.024 0.022 0.024 0.023 0.025 0.020
S↑ 0.901 0.894 0.899 0.898 0.907 0.885 0.912 0.916 0.903 0.918 0.916 0.924
F β ↑ 0.893 0.872 0.886 0.876 0.895 0.866 0.898 0.901 0.901 0.897 0.903 0.916
NJU2K
E ξ ↑ 0.921 0.912 0.913 0.912 0.908 0.911 0.921 0.918 0.922 0.922 0.912 0.922
MAE↓ 0.040 0.047 0.043 0.045 0.038 0.048 0.038 0.036 0.039 0.038 0.035 0.031
S↑ 0.887 0.858 0.868 0.889 0.877 0.823 0.880 0.885 0.862 0.880 0.886 0.899
F β ↑ 0.873 0.842 0.851 0.866 0.863 0.805 0.892 0.874 0.865 0.877 0.892 0.895
SIP
E ξ ↑ 0.915 0.909 0.911 0.914 0.911 0.880 0.922 0.920 0.908 0.920 0.924 0.930
MAE↓ 0.049 0.063 0.056 0.050 0.052 0.076 0.053 0.048 0.057 0.051 0.043 0.040
S↑ 0.923 0.911 0.905 0.922 0.937 0.875 0.935 0.935 0.903 0.923 0.942 0.948
F β ↑ 0.897 0.861 0.876 0.881 0.913 0.839 0.924 0.917 0.901 0.912 0.927 0.933
DES
E ξ ↑ 0.961 0.945 0.948 0.952 0.974 0.921 0.973 0.975 0.923 0.963 0.981 0.982
MAE↓ 0.021 0.027 0.025 0.023 0.018 0.034 0.018 0.019 0.039 0.021 0.016 0.014
3.3.2 定性评估
为了进行定性评估, 我们将本文算法的结果与一些具有代表性的最新算法进行了可视化的比较. 其中包含了
一些具有代表性的困难场景, 如前景和背景相似 (行 1 行、第 2 行)、复杂场景 (第 3 行、第 4 行)、低质量深度图
(第 5 行、第 6 行)、多目标 (第 7 行、第 8 行) 和小目标 (第 9 行、第 10 行) 的情况, 比较结果如后文图 5 所示. 从
图 5 中可以看出, 本文的模型能够更精确的定位和分割显著目标, 并且在困难场景下仍能保证优秀的检测性能. 这
些实验进一步验证了该模型的有效性和鲁棒性.
3.4 消融实验
为了验证每个模块的有效性, 我们在 DUT、NLPR、NJU2K 这 3 个数据集上进行了消融实验, 从不同方面验
证各个模块在本文算法中的有效性. 实验结果如表 2–表 5 所示, 从结果中我们可以看出, 全局感知特征增强模块
对检测结果的影响最大, 跨模态交互融合模块的影响次之, 两者相比于基线模型都获得了约 3% 的性能提升, 而多
级融合解码器带来的性能提升相对较小, 只有不到 1%. 这印证了跨模态特征融合以及全局特征感知在显著性目标
检测任务中的重要性. 详细的消融实验结果将在以下几节中给出.
3.4.1 跨模态交互融合模块的有效性
为了验证跨模态交互融合模块的有效性, 本文进行了 4 个实验. 第 1 个实验, 基线模型去掉了跨模态交互融合
模块 (CIF), 直接在编码器中将深度特征与 RGB 特征相加. 第 2 个实验, 使用 JL-DCF [47] 中提出的跨模态融合模块
(CM). 第 3 个实验, 使用 CBAM [91] 提出的通道-空间注意力模块. 第 4 个实验, 使用本文提出的跨模态交互融合模
块 (CIF). 为了公平起见, 这些模块都采取与本文方法相同的连接方式.
根据表 2 的结果, 我们可以观察到, 基线模型加入 CIF 后, 在 3 个数据集的 4 个评价指标上的结果都有明显的
提升. 并且, 相比于其他 2 种特征融合模块, 本文的 CIF 取得了最佳的实验结果. 这说明本文提出的跨模态交互融
合模块, 借助一维编码注意力机制, 能够在不增加计算负担的前提下, 获取各自维度上更长距离的注意力信息再进
行结合, 从而有效地实现 RGB 特征和深度特征的跨模态融合. 同时将输出的融合特征附加到 RGB 特征上作为补
充, 以减轻低质量深度图带来的负面影响.