Page 451 - 《软件学报》2025年第10期
P. 451
4848 软件学报 2025 年第 36 卷第 10 期
包含行人信息和背景信息, 同时, 由于相机参数和环境 (如光照条件和天气) 的差异, 采集的图像还包含一些环境
因素, 导致了图像中干扰信息较多; 而文本描述通常只包含行人信息, 比如外貌, 性别, 服装及携带的物品等. 因此,
有效地分离图像中的人和背景环境信息, 并对文本特征进行适当的降噪, 是提高检索性能的关键.
近年来, 为了缩小图像和文本之间的模态差距, 人们提出了两种方法: 全局匹配方法和局部匹配方法. 全局匹
配方法 [6−10,19] 从两种模态中提取样本的全局表示, 并设计相应的目标函数来探索共享的潜在嵌入空间, 在该空间中
可以直接计算出图像-文本对的匹配分数, 如图 1(a) 所示. 这些方法通常只在网络的末端使用匹配损失来学习跨模
态对齐, 缺乏中间层的充分跨模态交互, 而中间层的跨模态交互对弥合特征模态差距至关重要. 同时, 全局匹配方
法无法充分挖掘图像中的局部细节. 此外, 图像中还存在一些与文本不相关的背景区域, 这些背景区域的存在以噪
声的形式扩大了模态间的差距.
局部图像-文本匹配方法 [5,11,12,20−22] 通过构建行人身体部位与文本描述实例之间的对应关系来缩小模态差异.
它的一般过程是先显式获取图像和文本的局部表示, 然后建立它们之间的局部对应关系, 如图 1(b) 所示. 为了提
取图文显式的局部特征, 常用的策略 [21] 是将图像分割成条带或小块, 将文本分割成单词, 然后从这些单元中提取
特征表示计算局部特征. 然而, 现有的局部匹配方法复杂度高, 可能会破坏图像和文本的上下文信息或引入噪声,
从而影响随后的对齐阶段. 与全局匹配方法相比, 局部匹配方法通过细粒度的信息挖掘和模式间的信息交互提升
了性能. 然而, 由于昂贵的成对图文交互操作需要较大的计算量, 局部匹配方法中的信息交互不可避免地会降低推
理效率, 在实际应用中难以实现.
针对上述问题, 本文设计了一种基于隐式多尺度对齐和多元交互注意力的文本-图像行人重识别方法, 学习语
义对齐的跨模态特征表示, 图 1(c) 展示了该方法的工作流程. 首先, 我们利用语义一致特征金字塔 SCFP (semantic
consistent feature pyramid) 网络从图像中提取多尺度特征, 并使用注意力权重融合不同尺度的特征信息. 其次, 本
文采用多元交互注意力 MIA (multivariate interaction attention) 机制捕捉视觉特征和文本信息之间的交互关系, 实
现隐式多尺度对齐. 另外, 本文引入了前景增强判别器 FED (foreground-enhancing discriminator) 来增强前景, 以提
取更好的行人特征, 有助于解决图像与文本之间的信息不平等问题.
本文的主要工作如下.
(1) 针对图像中全局与局部特征未有效融合问题, 本文提出了语义一致特征金字塔网络, 该网络自适应地调整
不同特征图之间的权重, 将图像中的细节与整体特征有效融合, 使得最终生成的特征图包含了丰富的全局与局部
信息, 从而显著提升了图像表示的表达能力.
(2) 针对显式对齐导致模态内信息失真问题, 本文提出了多元交互注意力机制学习图像和文本之间的关联, 该
机制能够有效地捕捉到不同视觉特征和文本信息之间的交互关系, 从而实现隐式多尺度对齐.
(3) 针对图像与文本之间信息不平等问题, 提出了前景增强判别器模块来增强前景, 以提取更加纯净的行人特
征, 保留行人身份信息的同时过滤掉环境因素, 有助于缓解图像与文本之间的信息不平等.
本文第 1 节介绍文本-图像行人重识别的相关方法和研究现状. 第 2 节介绍本文提出的基于隐式多尺度对齐
和多元交互注意力的文本-图像行人重识别模型. 第 3 节介绍实验设置与结果分析. 最后总结全文.
1 相关工作
1.1 文本-图像行人重识别
文本-图像行人重识别是根据给定的文本描述查找对应的行人图像. 该任务最早由 Li 等人 [6] 提出. 他们提出了
第 1 个基准数据集 CUHK-PEDES 并构建了一个 GNA-RNN 模型来学习文本描述和人物图像之间的亲缘关系. 后
来, Li 等人 [9] 提出了身份感知的两阶段网络, 将模态内和模态间距离联合最小化. Sarafianos 等人 [19] 提出了文本-图
像模态对抗性匹配方法 TIMAM (text-image modality adversarial matching), 尝试通过对抗式和交叉模式匹配目标
学习模式不变特征表示. 然而, 这些方法只关注全局表示, 可能会遗漏一些独特的局部细节或噪声信息. 因此, 研究
了一些局部匹配方法来克服这个问题. Wang 等人 [12] 通过对人体进行分段和利用 k-倒数抽样将视觉属性和文本属

