Page 461 - 《软件学报》2025年第10期

P. 461

4858 软件学报 2025 年第 36 卷第 10 期

在 ICFG-PEDES 数据集上, 我们的方法在 Rank-1 准确率达到了 63.32%, 在 Rank-5 和 Rank-10 准确率分别达到了
80.30% 和 85.81%, 而在 mAP 上也取得了 38.14% 的高分. 这些成绩在所有列出的最新方法中位居首位, 尤其是与
CFine 相比, 我们在 Rank-1 上的提升达到了显著的 2.49 个百分点, 充分证明了我们方法在这一领域具有一定的优
势和竞争力.
在 RSTPReid 数据集上, 我们的方法在 Rank-1 准确率上同样表现良好, 达到了 59.25%, 虽略低于相同的基于
CLIP 的 CFine 模型的 60.83%, 但 Rank-5 和 Rank-10 准确率分别为 82.40% 和 88.90%, 较 CFine 显著提高了
5.85% 和 6.48%. 同时, 在 mAP 上也取得了令人瞩目的 46.80% 的得分. 此外, 我们在 mINP 指标上虽然相对较低,
仅为 24.35%, 但这个指标主要反映了模型在辨识最具挑战性的匹配样本方面的能力. 尽管如此, 我们的方法在其
他关键性能指标上的显著优势, 包括 mAP 和 Rank 指标上的高分, 表明我们的模型不仅在平均性能上较好, 而且在
识别最可能正确的匹配样本方面也表现优异.
综上所述, 我们的方法在所有 3 个基准数据集上的所有指标上始终达到最佳性能. 这证明了我们提出的方法
的泛化性和鲁棒性.
3.4 消融实验
为了验证本文所提方法的各重要组成部分的有效性, 我们在 CUHK-PEDES 数据集上进行了广泛的消融实验.
“Baseline”是指仅使用在 CLIP 上预训练的 ViT 和 Transformer 作为图像和文本编码器来提取特征, 而不添加任何
模块和进一步的特征嵌入. 在实验过程中, 我们通过组合不同组件来验证模型中每个组件的贡献, 结果见表 5.

表 5 我们在 CUHK-PEDES 上所提出模型的不同组成部分的消融研究 (%)

组成部分
No. 方法 Rank-1 Rank-5 Rank-10
FED SCFP MIA
0 Baseline －－－ 68.19 86.47 91.47
1 +FED √ －－ 69.31 86.86 91.68
2 +SCFP － √ － 70.16 87.15 92.04
3 +MIA －－ √ 70.55 87.55 92.45
4 +FED+SCFP √ √ － 71.23 88.10 92.71
5 +FED+MIA √ － √ 71.84 88.57 93.11
6 +SCFP+MIA － √ √ 73.09 88.93 93.42
7 Ours √ √ √ 73.55 89.30 93.86
注: “+”表示在基线模型(Baseline)上增量添加的组件模块

● 前景增强判别器模块 (FED). 通过比较表 5 中 No. 0 和 No. 1 的结果, 证明了添加了 FED 的模型性能得到明
显提升, Rank-1 从 68.19% 提升到 69.31%. 这是因为相较于传统的行人图像特征提取, FED 过滤背景和环境信息
并且增强行人特征, 有助于缓解图像与文本之间的信息不平等, 减少模态间差距.
● 语义一致特征金字塔网络 (SCFP). 为了验证 SCFP 的有效性, 我们比较了 No. 0 和 No. 2, 相较于 Baseline,
Rank-1、Rank-5 和 Rank-10 分别提高了 1.97%、0.68% 和 0.57%. 如 No. 4 的结果所示, 在 No. 1 基础上添加 SCFP,
性能分别提高了 1.92%、1.24% 和 1.03%. 这表明多尺度特征融合能带来显著的性能增益, 交叉注意力通过自适应
地调整特征图之间的权重, 使得处理后的特征既包含全局特征又包含局部特征, 有助于跨模态匹配图文特征.
● 多元交互注意机制 (MIA). 通过比较 No. 0 和 No. 3 的结果, 性能分别提高了 2.36%、1.08% 和 0.98%. 当在
No. 1 的基础上添加 MIA 模块时, Rank-1 从 69.31% 显著提升到 71.84%; 而在 SCFP 的基础上添加 MIA 的结果如
No. 6 所示, Rank-1、Rank-5 和 Rank-10 分别提高了 2.93%、1.78% 和 1.38%. 通过实验验证, 添加 MIA 模块的框
架在图文重识别任务中表现出了更好的性能. 它能够有效地缩小不同模态之间的差距, 并增强图像和文本之间的
隐式语义对齐. 这意味着模型能够更好地理解图像和文本之间的关联, 从而实现更准确的行人重识别.
通过比较 No. 0 和 No. 7 的结果, 可知直接使用 CLIP 来实现 TIReID 是不明智的, 结果并不是最优的. 当与我

456 457 458 459 460 461 462 463 464 465 466