Page 325 - 《软件学报》2024年第4期
P. 325

孙福明 等: 跨模态交互融合与全局感知的            RGB-D  显著性目标检测                                  1903



                                     r
                                    F = f i ×SA( f i ×CA x (trans(p x ( f i ), p y ( f i )))×CA y (trans(p x ( f i ), p y (f i ))))  (1)
                                     i
                             r  d  r   d                                                             p x  和
                 其中,    f i = Cat( f , f ) ,    f  和  f   分别表示骨干网提取的颜色特征和深度特征  i = 1,...,5, Cat(·) 表示级联操作;

                             i  i  i   i
                 p y  表示水平方向和垂直方向的平均池化操作;             trans(·)  表示转换层实现编码信息的嵌入, 其中包括一个卷积层、
                 BN  层和  Sigmoid  层;   CA x (·) 和  CA y (·) 表示沿  x、y 方向上编码注意力的生成  [68] , 通过一个包含  Sigmoid  层的卷积
                                                                                  S A(·) 表示空间注意力层. 这
                 层来实现. 通过这种方式, 可以沿一个空间方向捕获远程依赖关系并保留位置信息;
                 样, 深度特征和    RGB  特征就能充分结合以增强感兴趣目标的特征表示.

                                                 跨模态融合编码器

                               d
                               f i

                                                                                   CIF 跨模态交互融合模块
                                                                                  UFM 上采样融合模块
                                      CIF 1     CIF 2    CIF 3    CIF 4     CIF 5
                                                                                  RCM 残差卷积模块
                                                                                   TE  Transformer embedding 模块
                               r
                               f i
                                                                                      过渡层
                                                            r        r         r
                                                           F 3      F 4       F 5
                                                          T        T         T        拼接操作
                                                                            UFM       逐元素相加
                                      r        F 2 r
                              F″                                            UFM
                                     F 1
                                                                                      逐元素相乘
                                                                  UFM
                                 RCM 1     RCM 2    RCM 3
                                                     ′      F 3      F 4      F 5  PE  位置编码
                                                   F H
                                                                           TE
                                                                     F H
                                                              PE
                                                           F h
                                     多级融合解码器
                                                           C  Transformer 编码器
                                                            Z l             Z 0
                                                             全局感知特征增强模块
                                            图 2 基于   CNN-Transformer 的模型框架图

                                                    d                 r
                                                    f i               f i
                                                             C
                                                              C×H×W
                                                           f i
                                                  X avg pool      Y avg pool
                                                   C×H×1          C×1×W
                                                           Trans
                                                              Split

                                                   CA x             CA y


                                                            SA

                                                                r
                                                              F i
                                                图 3 跨模态交互融合模块        (CIF)
   320   321   322   323   324   325   326   327   328   329   330