Page 326 - 《软件学报》2024年第4期
P. 326
1904 软件学报 2024 年第 35 卷第 4 期
此外, 我们还引入了在 ImageNet 上预训练的 Res2Net 模型作为骨干网络 [69] . Res2Net 通过将 3×3 卷积核替换
为分层残差连接的卷积核组, 提高了网络的感知能力. 在计算量相近的前提下, 提高了准确率.
2.2 全局感知特征增强模块
Transformer 在获取全局依赖关系方面有着出色的表现, 该特性有助于提取高级语义信息. 基于此我们设计了
全局感知特征增强模块, 由尺寸调节模块和 Transformer embedding 模块两部分组成. 尺寸调节模块用于调整多级
高级特征到相同的尺寸, 旨在减轻上采样过程中噪声的负面影响. Transformer embedding 模块的作用是获取高级
特征间的长距离依赖关系以实现特征增强. 具体来说, 我们首先将第 3–5 层的特征调整到相同的尺寸后进行级联,
再输入到 Transformer embedding 模块来学习跨层级的长距离依赖关系以增强特征表示, 最后将 Transformer
embedding 模块的输出与输入进行级联以保留更多原始信息.
2.2.1 尺寸调节模块
Transformer embedding 模块将多层高级特征作为输入, 但是不同层级的高级特征间的尺寸以及通道数是不同
的, 因此需要将其调整到相同的大小以便于进行融合.
F 通过一个由 3×3 卷积和 ReLU 激活函数组成的变换层 T, 将多级特征的通道数调整到相同的
r
首先, 我们将 i
大小. 该过程可以描述为:
′ r
r
F = σ(Conv(F )), i = 3,...,5 (2)
i i
Conv(·) 是 3×3 σ(·) 是 ReLU 激活函数.
其中, 卷积操作,
为了将特征的尺寸调整到相同的大小, 我们需要对 F ′ r 和 F ′ r 进行上采样操作, 但是直接使用 2 倍和 4 倍上采
4 5
样会引入一定的噪声信息. 所以, 我们采取渐进上采样融合的策略来处理第 3–5 层的特征. 通过 UFM 模块, 能够
有效降低引入的噪声, 并且使高级特征的空间细节更加丰富. 该过程可以表述为:
′ r ′ r ′ r
F 5 = UFM(UFM(F ,F ),F )
5 4 3
′ r ′ r
F 4 = UFM(F ,F ) (3)
3
4
′ r
F 3 = F
3
UFM(·) 如图 4 所示. 具体可以表述为:
其中,
UFM(F ,F ) = Cat(Conv(Up(F )),F ) (4)
h
l
l
h
其中, F 和 F 分别表示较高层和较低层的特征, Up(·) 表示上采样操作. 然后, 将高级特征 F = Cat(F 3 ,F 4 ,F 5 ) 作为
h l H
输入送入 Transformer 编码器.
Up×2 Conv C
F h
F l
图 4 上采样融合模块示意图 (UFM)
2.2.2 Transformer embedding 模块
在 Transformer embedding 模块中, 首先通过 Patch embedding 层将输入特征图转化为特征嵌入序列, 然后叠加
上可训练的位置编码 (position encoder, PE) 以保留位置信息. 接着将特征输入到堆叠的标准 Transformer 编码器 [31]
中, 利用 Transformer 机制获取高级特征的长距离依赖关系后增强原始特征表示. 最后将输出的特征调整为原始大
小. 同时, 为了保留更多的原始信息, 我们将输出特征与原始特征进一步级联生成增强的高级特征 F ′ .
H
2.3 多级融合解码器
多级融合解码器用于解码增强后的高级特征并融合低级特征, 以生成显著预测. 具体来说, 我们将 Transformer
embedding 模块增强后的高级特征与最低两层特征进行结合. 同时, 我们采取多个不同尺度的残差卷积模块
(residual convolution module, RCM) 代替单独的卷积层进行解码. 在 RCM 模块中, 输入特征通过深度可分离卷积
(depth-wise, DW) 层、正则化层 (layer normalization, LN) [70] 和逐点卷积 (point-wise, PW) 层进行进一步的过滤. 实