Page 453 - 《软件学报》2025年第10期
P. 453

4850                                                      软件学报  2025  年第  36  卷第  10  期


                        N
                                                                                   I
                                                                                                       T
                 D = {I i ,T i } ,  N  表示每批数据集中文本-图像对的总数, 每个文本-图像对由一幅图像   和一个相应的文本描述  .
                        i=1
                 为了简单起见, 下文中省略下标         i.

                                                                     A woman in blue
                                       空间引空间引                        jean shorts, light
                             通道去噪模块      导定位       ViT               colored shoes and  Transformer  随机语言掩码
                               CDM                                   a pink top carries
                                          SGL
                                                                     a light colored
                                                                     shoulder bag.
                                前景增强判别器        图像编码器          输入图像-文本对           文本编码器
                                                                           多元交互注意力 MIA
                             H W
                              ×  × C
                             2  2
                              H  W      CA H W ×2C
                                            ×
                               ×  ×2C
                              4  4         4  4
                                                    H W
                                H W                   ×  ×4C
                                 ×  ×4C    H W    CA 8  8
                                8  8        ×  ×4C                                ...  ...
                                           8  8
                                 H W     CA
                                   ×  ×8C
                                 16 16                             图像特征                    文本特征
                                                                     映射                     映射
                                                                              L CMPM  + L id  + L div
                                语义一致特征金字塔                                 基于语义中心的隐式多尺度对齐
                               图 2 基于隐式多尺度和多元交互注意力的文本-图像行人重识别模型框架图

                    ● 图像编码器. 给定输入图像        I ∈ R H×W×C , 其中,  H、W  和  C  分别表示上述特征映射中高度、宽度和通道的维
                 数. 本文采用   CLIP  预训练的  ViT  作为骨干网络提取视觉特征. ViT        是一种基于自注意力机制的图像分类模型, 其
                 核心思想是将输入图像拆分为一系列的图像块, 并将这些块转化为序列数据, 每个块被视为一个令牌                                (token), 与自
                 然语言处理中的单词类似. 最后, ViT        使用多层的自注意力机制来对这些图像块进行建模, 从而捕获它们之间的相
                                                 2
                 互关系. 我们首先将      I  拆分成  K = H ×W/P  个固定大小的网格状补丁序列, 其中,         P 表示块的大小. 然后通过可训
                 练的线性投影将补丁序列映射到           d 维嵌入, 并将可学习的      [CLS] 令牌附加到序列的开始以学习全局表示. 最后, 我
                                                                  {
                          K +1 的序列送到    ViT                    V = v g ,v 1 ,v 2 ,...,v k ∈ R (K+1)×d , 其中,  v g  是输入图像的全
                                                                             }
                 们将长度为                     的编码器中. 输出表示为
                 局表示,  {v 1 ,v 2 ,...,v k } 是补丁局部表示.
                                           T , 本文使用  CLIP  预训练的文本编码器       Transformer 提取文本表示. 具体来说,
                    ● 文本编码器. 对于输入文本
                 首先使用词汇量为       49 152  的小写字节对编码    (BPE) [32] 对文本  T  进行标记. 为了保证文本长度的一致性, 当文本长
                 度大于   L 时, 选择前  L 个单词; 当文本长度小于      L 时, 在文本末尾进行零填充. 接着, 将文本序列线性投影到               d  维嵌
                 入, 在开始处用    [CLS] 令牌填充文本令牌序列. 最后, 将长度为           L+1 的序列输入到     Transformer 编码器中. 输出结
                        {         }  (L+1)×d
                 果为  T = t g ,t 1 ,t 2 ,...,t L ∈ R  , 其中,  t g  是  [CLS] 标记的输入文本的全局特征,  {t 1 ,t 2 ,...,t L } 是单词级局部特征.
                  2.2   隐式多尺度对齐模块
                    为了计算图像和文本之间的相似性, 我们可以通过在共享的嵌入空间中显式对齐图像块序列和文本词来实
                 现. 然而, 由于图像块和单词中存在背景噪声, 这种相似性对于                 TIReID  任务是不可靠的. 因此, 我们提出了一种隐
                 式多尺度语义对齐模块, 它能够在各个模态内挖掘更有用的匹配线索, 使得图像的多尺度特征和文本中相应的短
                 语对齐. 具体来说, 使用前景增强判别器模块去除图像中多余的背景和环境信息, 以提高图像特征的准确性. 同时,
                 我们引入了随机语言掩码模块, 按比例对文本嵌入进行随机掩码, 以增加文本特征的多样性. 此外, 我们还采用语
                 义一致特征金字塔模块从图像中提取多尺度特征, 并在通道维度上进行融合, 以充分利用图像信息.
                  2.2.1    前景增强判别器
                    行人图像和对应的文本描述之间存在信息不平等的情况. 因为图像包含行人和环境信息, 如图                              1(a) 所示; 而文
                 本描述则主要涵盖人物相关特征, 例如性别、外貌、服装、动作等. 为了解决这个问题, 我们提出了前景增强判别
                 器模块, 该模块由空间引导定位          SGL (spatial guide localization) 和通道去噪模块  CDM (channel denoising module)
   448   449   450   451   452   453   454   455   456   457   458