Page 454 - 《软件学报》2025年第10期
P. 454

孙锐 等: 隐式多尺度对齐与交互的文本-图像行人重识别方法                                                   4851


                 这两个子模块组成, 如图       3(a) 所示. 通过去除背景和环境信息, FED        模块可以增强前景行人的表现, 在行人特征提
                 取和信息对齐方面起到积极作用.


                                    空间引导定位                   通道去噪模块
                       输入特征映射          SGL                      CDM                     输出特征映射
                           v                     SGL 增强的                                   V ~
                                                  特征映射
                                                    V



                                                   (a) 前景增强判别器 FED 模块总览
                                v
                                                                     t
                                    v
                               [m max , m avg ]                    [m max ]
                                                                                    h 1
                                                                  [MaxPool]
                                                                     t
                                            Sigmoid                [m avg ]         h 2  Sigmoid
                                                                                              CDM的
                       输入特                   函数    SGL 的   输入特                           函数   权重系数
                       征映射 [MaxPool, AvgPool]  7×7  权重系数   征映射    [AvgPool]  共享神经              A
                        v                卷积层        A SGL    V              网络                  CDM
                             (b) 空间引导定位 SGL 示意图                      (c) 通道去噪模块 CDM 示意图
                                                    图 3 前景增强判别器

                    ● 空间引导定位 (SGL). 由于注意机制具有增强辨别性特征和抑制无关特征的功能, 因此被广泛应用于各种
                 深度学习任务中, 并对图像的语义理解起到积极作用. 其中, 空间注意力可捕捉特征图内不同空间位置之间的上下
                 文信息, 通过计算每个位置与其他所有位置之间的关系来实现. SGL                    是一种利用空间位置关系来引导注意学习的
                 方法, 它能够更准确地将注意力集中在与文本描述相关的行人区域上, 其原理是通过空间注意力来实现, 如
                 图  3(b) 所示. 首先, 分别对来自视觉主干的嵌入序列          V ∈ R (K+1)×d  进行通道维度的最大池化   (max pooling) 和平均池
                 化                          m v   d  m v  ∈ R .
                                                           d
                   (average pooling), 得到通道向量
                                             max  ∈ R  和   avg
                                                                              m ∈ R . 最后, 将连接向量依次经
                                                                                   2d
                                                                               v
                    然后, 将最大池化和平均池化得到的通道向量串联在一起, 得到连接向量
                 过一个   7×7  的卷积层和一个     Sigmoid  激活函数, 得到权重系数       A SGL , 用于控制每个位置的重要性, 如公式         (1)
                 所示.

                                                                     v
                                                  A SGL = Sigmoid( f  Conv 7×7 (m ))                  (1)
                    最后, 将权重系数       A SGL  与输入的图像嵌入序列       V ∈ R (K+1)×d   相乘, 可得到  SGL  模块增强后的特征映射
                 ¯ V ∈ R (K+1)×d  .
                    ● 通道去噪模块     (CDM). 通道去噪模块利用通道注意力, 旨在捕捉特征图中不同通道之间的相互依赖关系, 如
                 图  3(c) 所示. 通过自适应地加权不同通道的重要性, CDM            使网络能够聚焦于最具信息量的通道, 减弱背景或噪声
                 的相关通道, 使目标行人更加突出. 同时, 因为只处理感兴趣的通道, 相比于对整个图像进行全局处理, 只关注感兴
                 趣通道可以减少计算量和内存消耗, 提高算法的效率和速度.
                    首先, 我们利用     SGL  增强后的特征映射     ¯ V  进行全局最大池化和全局平均池化操作, 得到两个通道向量                m t max  和
                  t         t     t                                 h 1  和  . 使用共享的两层神经网络既可保持模
                 m . 然后将   m max   和  m avg   送入共享的两层神经网络进行处理, 得到       h 2
                  avg
                 型简单性, 又可提取多维度信息并学习特征的权重, 进一步优化特征的缩放过程, 从而提升模型性能和特征表达
                 能力.
                                                          h 2  相加, 经过一个  Sigmoid  激活函数操作后得到权重系数向
                    接着, 将两个神经网络处理得到的特征向量              h 1  和
                 量  A CDM , 其中,   W c  和  b c  是可学习的参数, 如公式  (2) 所示.

                                                A CDM = Sigmoid(W c ·(h 1 +h 2 )+b c )                (2)
                    最后, 将  SGL  增强后的特征映射      ¯ V  与对应的权重系数    A CDM  逐元素相乘, 得到具有通道注意力加权的特征嵌
   449   450   451   452   453   454   455   456   457   458   459