Page 460 - 《软件学报》2025年第10期

P. 460

孙锐等: 隐式多尺度对齐与交互的文本-图像行人重识别方法 4857

表 2 各方法在 CUHK-PEDES 数据集上的实验结果对比 (%) (续)

方法类型来源 Rank-1 Rank-5 Rank-10 mAP mINP
SAF [37] L ICASSP 2022 64.13 82.62 88.40 －－
TIPCB [38] L Neuro 2022 64.26 83.19 89.10 －－
CAIBC [39] L MM 2022 64.43 82.87 88.37 －－
AXM-Net [40] L MM 2022 64.44 80.52 86.77 －－
LGUR [41] L MM 2022 65.25 83.12 89.00 －－
IVT [42] G ECCVW 2022 65.59 83.11 89.21 －－
BLIP [43] G ICML 2022 65.61 82.84 88.65 58.02 －
TransTPS [44] L TMM 2023 68.23 86.37 91.65 －－
CFine [29] L TIP 2023 69.57 85.93 91.15 －－
Ours G － 73.55 89.30 93.86 66.28 50.68

表 3 各方法在 ICFG-PEDES 数据集上的实验结果对比 (%)

方法类型来源 Rank-1 Rank-5 Rank-10 mAP mINP
Dual Path [7] G TOMM 2020 38.99 59.44 68.41 －－
CMPM/C [10] L ECCV 2018 43.51 65.44 74.26 －－
ViTAA [12] L ECCV 2020 50.98 68.79 75.78 －－
SSAN [24] L arXiv 2021 54.23 72.63 79.53 －－
IVT [42] G ECCVW 2022 56.04 73.60 80.22 －－
ISANet [34] L TNNLS 2023 57.73 75.42 81.72 －－
CFine [29] L TIP 2023 60.83 76.55 82.42 －－
Ours G － 63.32 80.30 85.81 38.14 7.84

表 4 各方法在 RSTPReid 数据集上的实验结果对比 (%)

方法类型来源 Rank-1 Rank-5 Rank-10 mAP mINP
Dual Path [7] G TOMM 2020 38.99 59.44 68.41 －－
CMPM/C [10] L ECCV 2018 43.51 65.44 74.26 －－
ViTAA [12] L ECCV 2020 50.98 68.79 75.78 －－
SSAN [24] L arXiv 2021 54.23 72.63 79.53 －－
IVT [42] G ECCVW 2022 56.04 73.60 80.22 －－
ISANet [34] L TNNLS 2023 57.73 75.42 81.72 －－
BLIP [43] G ICML 2022 58.25 77.85 85.65 44.08 －
TransTPS [44] L TMM 2023 56.05 78.65 86.75 －－
CFine [29] L TIP 2023 60.83 76.55 82.42 －－
Ours G － 59.25 82.40 88.90 46.80 24.85

首先, 我们在最流行且广泛使用的基准 CUHK-PEDES 上评估我们的方法. 如表 2 所示, 我们的方法优于所有
最先进的方法, Rank-1、 mAP 和 mINP 分别达到了 73.55%、66.28% 和 50.68%. 特别是, 我们的模型优于相同的
基于 CLIP 的 CFine, Rank-1、Rank-5、Rank-10 分别提升了 3.98%、3.37%、2.71%. 这可归功于我们提出的隐式
多尺度对齐模块. 不同于 CFine 的单独提取图文全局和局部特征, 我们的模型利用语义一致特征金字塔网络
SCFP 将不同尺度的特征向量沿通道方向拼接, 获得有多尺度信息的特征图. 因此, 本文在跨模态行人检索方面效
率更高.
为了全面评估我们方法的泛化能力, 我们将其与 ICFG-PEDES 和 RSTPReid 两个基准数据集上的现有研究成
果进行了对比, 结果如表 3 和表 4 所示. 数据显示, 我们的方法在这两个数据集上与最新的主流方法的性能接近.

455 456 457 458 459 460 461 462 463 464 465