Page 454 - 《软件学报》2025年第10期

P. 454

孙锐等: 隐式多尺度对齐与交互的文本-图像行人重识别方法 4851

这两个子模块组成, 如图 3(a) 所示. 通过去除背景和环境信息, FED 模块可以增强前景行人的表现, 在行人特征提
取和信息对齐方面起到积极作用.

空间引导定位通道去噪模块
输入特征映射 SGL CDM 输出特征映射
v SGL 增强的 V ~
特征映射
V

(a) 前景增强判别器 FED 模块总览
v
t
v
[m max , m avg ] [m max ]
h 1
[MaxPool]
t
Sigmoid [m avg ] h 2 Sigmoid
CDM的
输入特函数 SGL 的输入特函数权重系数
征映射 [MaxPool, AvgPool] 7×7 权重系数征映射 [AvgPool] 共享神经 A
v 卷积层 A SGL V 网络 CDM
(b) 空间引导定位 SGL 示意图 (c) 通道去噪模块 CDM 示意图
图 3 前景增强判别器

● 空间引导定位 (SGL). 由于注意机制具有增强辨别性特征和抑制无关特征的功能, 因此被广泛应用于各种
深度学习任务中, 并对图像的语义理解起到积极作用. 其中, 空间注意力可捕捉特征图内不同空间位置之间的上下
文信息, 通过计算每个位置与其他所有位置之间的关系来实现. SGL 是一种利用空间位置关系来引导注意学习的
方法, 它能够更准确地将注意力集中在与文本描述相关的行人区域上, 其原理是通过空间注意力来实现, 如
图 3(b) 所示. 首先, 分别对来自视觉主干的嵌入序列 V ∈ R (K+1)×d 进行通道维度的最大池化 (max pooling) 和平均池
化 m v d m v ∈ R .
d
(average pooling), 得到通道向量
max ∈ R 和 avg
m ∈ R . 最后, 将连接向量依次经
2d
v
然后, 将最大池化和平均池化得到的通道向量串联在一起, 得到连接向量
过一个 7×7 的卷积层和一个 Sigmoid 激活函数, 得到权重系数 A SGL , 用于控制每个位置的重要性, 如公式 (1)
所示.

v
A SGL = Sigmoid( f Conv 7×7 (m )) (1)
最后, 将权重系数 A SGL 与输入的图像嵌入序列 V ∈ R (K+1)×d 相乘, 可得到 SGL 模块增强后的特征映射
¯ V ∈ R (K+1)×d .
● 通道去噪模块 (CDM). 通道去噪模块利用通道注意力, 旨在捕捉特征图中不同通道之间的相互依赖关系, 如
图 3(c) 所示. 通过自适应地加权不同通道的重要性, CDM 使网络能够聚焦于最具信息量的通道, 减弱背景或噪声
的相关通道, 使目标行人更加突出. 同时, 因为只处理感兴趣的通道, 相比于对整个图像进行全局处理, 只关注感兴
趣通道可以减少计算量和内存消耗, 提高算法的效率和速度.
首先, 我们利用 SGL 增强后的特征映射 ¯ V 进行全局最大池化和全局平均池化操作, 得到两个通道向量 m t max 和
t t t h 1 和 . 使用共享的两层神经网络既可保持模
m . 然后将 m max 和 m avg 送入共享的两层神经网络进行处理, 得到 h 2
avg
型简单性, 又可提取多维度信息并学习特征的权重, 进一步优化特征的缩放过程, 从而提升模型性能和特征表达
能力.
h 2 相加, 经过一个 Sigmoid 激活函数操作后得到权重系数向
接着, 将两个神经网络处理得到的特征向量 h 1 和
量 A CDM , 其中, W c 和 b c 是可学习的参数, 如公式 (2) 所示.

A CDM = Sigmoid(W c ·(h 1 +h 2 )+b c ) (2)
最后, 将 SGL 增强后的特征映射 ¯ V 与对应的权重系数 A CDM 逐元素相乘, 得到具有通道注意力加权的特征嵌

449 450 451 452 453 454 455 456 457 458 459