Page 452 - 《软件学报》2025年第10期

P. 452

孙锐等: 隐式多尺度对齐与交互的文本-图像行人重识别方法 4849

性关联起来. Niu 等人 [21] 提出了一种多粒度图像文本对齐网络来探索不同尺度的关系. Liu 等人 [23] 引入了由对象
属性和关系组成的文本和可视化场景图. Ding 等人 [24] 设计了并采用复合排名损失来克服文本描述中的方差. 最
近, Gao 等人 [20] 尝试利用一种新型的阶梯 CNN 网络和局部约束 BERT 模型对全尺度表示进行联合对齐.
总之, 目前的研究大多侧重于局部对齐. 这些局部匹配方法都是显式地获取局部特征, 会破坏图像和文本的完
整上下文信息, 并引入噪声. 本文从不同的角度研究了跨模态对齐, 在通道方向上融合所有提取的多尺度图像特
征, 并与文本特征跨模态交互, 从而聚合到一组共享的语义中心点实现隐式对齐.
1.2 视觉-语言预训练

视觉-语言预训练 VLP (vision-language pre-training) 是一种通过在大规模数据集上进行预训练来学习模型参
数的方法, 目的是建立视觉与语言之间的语义对应关系. 目前的 VLP 方法可以分为单流模型和双流模型两种. 在
单流模型 [25] 中, 图像特征和语言特征被联合处理, 然后送入一个 Transformer 编码器中. 虽然单流模型已经取得了
很大的成功, 但由于在训练和推理过程中需要进行交叉注意, 这不可避免地引入了延迟和大量的计算. 双流模型 [26]
则使用两个独立的编码器分别提取文本和视觉特征. 由于这两个编码器没有共享参数, 双流模型缺乏模拟视觉与
语言之间复杂交互的能力. 目前, 视觉-语言预训练已经成为学习多模态表征的主流范式, 在视觉问答 [27] 等任务上
显示出强大的效果, 其中最具代表性的是对比语言-图像预训练 CLIP (contrast language-image pre-training) [28] .
CLIP 采用对比学习的方式, 利用自然语言监督对大量图像文本数据进行训练, 以获得高质量的视觉特征. 通过语
义级别的语言监督, 视觉网络可以学习到具有丰富语义信息的视觉特征, 对跨模态任务和细粒度视觉任务有着巨
大的推动作用. 一些研究工作进一步扩展了 CLIP 的应用范围, Yan 等人 [29] 提出了一种 CLIP 驱动的细粒度信息挖
掘框架. Chen 等人 [30] 使用 CLIP 构建新的细粒度图像池来改善现有基准, 支持更细粒度的语义评估. Zhou 等人 [31]
探索如何有效地为视觉-语言模型如 CLIP 设计或生成提示, 以提高模型在特定任务上的性能. 然而, 由于 CLIP 被
训练为只关注实例级的表示 (图像级、句子级), 而文本-图像行人重识别需要模型关注细粒度信息和跨模态对应,
以区分行人之间的细微差异, 而以往的工作未能直接将原始对齐的 CLIP 双编码器转换为文本到图像的人员检索.
受到这些模型的启发, 我们的研究专注于细粒度信息的挖掘和利用, 以便更精确地处理图像与文本间的微小差异.
同时, 我们通过微调策略优化了 CLIP 模型, 使其更好地适应跨模态对齐的复杂性, 从而在特定的跨模态任务
TIReID 上获得了更好的性能. 我们的工作不仅解决了单一模态数据集上 TIReID 的局限性, 还通过深入分析加深
了对模型如何处理和理解跨模态信息的理解, 为未来的研究开辟了新的视角.
2 基于隐式多尺度对齐和多元交互注意力的文本-图像行人重识别

本文提出了一种基于隐式多尺度对齐和多元交互注意力的文本-图像行人重识别方法, 主要分为 3 个部分.
第 1 部分是双路径图像-文本编码器模块, 它利用图像和文本编码器提取视觉和文本特征. 第 2 部分是隐式多尺度
语义对齐模块, 该模块在模态内增强行人特征的提取能力. 其中, 前景增强判别器模块对视觉特征进行处理, 从而
关注行人特征并且过滤背景信息; 接着, 将过滤后的图像特征送入语义一致特征金字塔模块, 融合不同尺度的特
征, 生成全局和局部信息的特征图, 该特征图将作为最终的特征向量和文本进行匹配. 第 3 部分是多元交互注意力
模块, 学习图像和文本特征之间的交互关系, 缩小模态之间的差距. 此外, 通过联合优化跨模态投影匹配 (cross-
modal projection matching, CMPM) 损失 [10] 、身份 (identification, id) 损失 [7] 和多样性 (diversity, div) 损失 [29] 来提升
模型性能, 实现基于语义中心的隐式多尺度对齐. 总体网络框架如后文图 2 所示, 其中, CA 是交叉注意力 (cross
attention).
2.1 双路径图像-文本编码器
以往的文本-图像行人重识别方法通常在单模态数据集上分别对图像和文本进行预训练, 这导致缺乏多模态
对应信息. 受到 VLP 工作的启发, 我们的方法在 CLIP [28] 的图像和文本编码器的基础上初始化. 我们使用两个独立
的编码器分别从图像和文本中提取初级特征, 然后通过 Transformer 结构将它们融合. 在训练阶段, 给定训练数据

447 448 449 450 451 452 453 454 455 456 457