Page 450 - 《软件学报》2025年第10期
P. 450

孙锐 等: 隐式多尺度对齐与交互的文本-图像行人重识别方法                                                   4847


                 purer  person  features,  which  is  helpful  for  alleviating  the  information  inequality  between  images  and  texts.  Experimental  results  on  three
                 mainstream  text-image  person  re-identification  datasets  of  CUHK-PEDES,  ICFG-PEDES  and  RSTPReid  show  that  the  proposed  method
                 effectively improves the cross-modal retrieval performance, which is 2%‒9% higher than the Rank-1 of SOTA algorithm.
                 Key words:  text-image person re-identification; implicit alignment; multi-scale fusion; multivariate interaction attention; semantic alignment
                    行人重识别     ReID (person re-identification) 是智能视频监控领域的一项基本任务. 其目的是根据给定的检索条
                 件  (如人物图像, 相关属性或自然语言描述) 在多个非重叠相机中查询目标行人. 根据查询的模态, 行人重识别任
                 务大致可分为基于图像的搜索          [1,2] 、基于属性的搜索   [3,4] 和基于文本的搜索   [5,6] . 但是现有的行人重识别方法通常忽
                 略了一些复杂或特殊场景下无法获得行人图像的情况. 例如一些偏远的道路没有监控探头或行人完全被遮挡                                     [7] .
                 为了解决这个问题, 警方可根据目击者提供的语言描述来搜索目标行人, 即文本-图像行人重识别                                TIReID (text-
                 image person re-identification) [8−12] . 如图  1  所示. 文本-图像行人重识别会根据查询文本与图像的相似度对一个大型
                 图像库中的所有人物图像进行排序, 选择排名靠前的人物图像作为匹配项                         [6] . 由于使用文本描述作为检索查询更
                 加简单自然, 因此文本-图像行人重识别技术具有较好的应用前景.

                                                                                     A woman in blue
                                                                                     jean shorts, light
                                    图像编码器                           文本编码器            colored shoes and a
                                                                                     pink top carries a
                                                                                     light colored
                                                                                     shoulder bag outside.
                                                (a) 对齐视觉文本嵌入的全局匹配方法

                                                                      woman
                                                                                     A woman in blue
                                                                    blue jean shorts  jean shorts, light
                              显式图
                              像部分                                  light colored shoes  文本名  colored shoes and a
                              提取                                               词提取   pink top carries a
                                                                       pink
                                                                                     light colored
                                                                     shoulder bag    shoulder bag outside.
                                              (b) 显式对齐视觉文本嵌入的局部匹配方法


                                                                  Shoulder bag       A woman in blue
                                                                                     jean shorts, light
                                                                                     colored shoes and a
                                    图像编码器                           文本编码器            pink top carries a
                                                                                     light colored
                                                                                     [MASK] outside.

                                         (c) 基于语义中心的隐式对齐视觉文本嵌入的全局匹配方法

                                全局图像特征         全局文本特征          局部图像特征         局部文本特征
                                  跨模态对齐        注意力机制           掩码令牌           语义中心
                                           图 1 文本-图像行人重识别的检索范式演变

                    文本-图像行人重识别涉及两种异构模态的信息处理, 是一项具有挑战性的任务. 该任务可被视为跨模态检索
                 的一个特定子任务       [13,14] . 然而在行人重识别过程中, 由于图像可能存在遮挡           [15] 、背景杂波  [16] 和姿态干扰  [17] 等问
                 题, 会使模型难以提取准确的视觉表示; 同时, 因文本描述的任意顺序和文本歧义性会增加特征对齐的不确定性,
                 进而导致难以实现准确的特征对齐. 此外, 不同人的图像或描述具有非常相似的高层语义, 而图像和文本之间存在
                 显著模态差异, 导致模态间的特征差异远大于单个模态内的特征差异                       [6,9] . 由此可见, 文本到图像检索的核心研究
                 问题是探索更好的方法来提取区分性和鲁棒性的多模态特征表示, 并设计更好的跨模态匹配方法将图像和文本特
                 征嵌入在公共的潜在空间中进行对齐. 另外, 图像和文本之间的信息是不平等的                         [18] : 从视频监控中捕捉到的图像
   445   446   447   448   449   450   451   452   453   454   455