Page 325 - 《软件学报》2024年第4期
P. 325
孙福明 等: 跨模态交互融合与全局感知的 RGB-D 显著性目标检测 1903
r
F = f i ×SA( f i ×CA x (trans(p x ( f i ), p y ( f i )))×CA y (trans(p x ( f i ), p y (f i )))) (1)
i
r d r d p x 和
其中, f i = Cat( f , f ) , f 和 f 分别表示骨干网提取的颜色特征和深度特征 i = 1,...,5, Cat(·) 表示级联操作;
i i i i
p y 表示水平方向和垂直方向的平均池化操作; trans(·) 表示转换层实现编码信息的嵌入, 其中包括一个卷积层、
BN 层和 Sigmoid 层; CA x (·) 和 CA y (·) 表示沿 x、y 方向上编码注意力的生成 [68] , 通过一个包含 Sigmoid 层的卷积
S A(·) 表示空间注意力层. 这
层来实现. 通过这种方式, 可以沿一个空间方向捕获远程依赖关系并保留位置信息;
样, 深度特征和 RGB 特征就能充分结合以增强感兴趣目标的特征表示.
跨模态融合编码器
d
f i
CIF 跨模态交互融合模块
UFM 上采样融合模块
CIF 1 CIF 2 CIF 3 CIF 4 CIF 5
RCM 残差卷积模块
TE Transformer embedding 模块
r
f i
过渡层
r r r
F 3 F 4 F 5
T T T 拼接操作
UFM 逐元素相加
r F 2 r
F″ UFM
F 1
逐元素相乘
UFM
RCM 1 RCM 2 RCM 3
′ F 3 F 4 F 5 PE 位置编码
F H
TE
F H
PE
F h
多级融合解码器
C Transformer 编码器
Z l Z 0
全局感知特征增强模块
图 2 基于 CNN-Transformer 的模型框架图
d r
f i f i
C
C×H×W
f i
X avg pool Y avg pool
C×H×1 C×1×W
Trans
Split
CA x CA y
SA
r
F i
图 3 跨模态交互融合模块 (CIF)