Page 460 - 《软件学报》2025年第10期
P. 460

孙锐 等: 隐式多尺度对齐与交互的文本-图像行人重识别方法                                                   4857


                                   表 2    各方法在  CUHK-PEDES  数据集上的实验结果对比 (%) (续)

                      方法         类型          来源          Rank-1    Rank-5     Rank-10    mAP      mINP
                     SAF [37]     L       ICASSP 2022     64.13     82.62     88.40       -        -
                     TIPCB [38]   L        Neuro 2022     64.26     83.19     89.10       -        -
                    CAIBC [39]    L         MM 2022       64.43     82.87     88.37       -        -
                    AXM-Net [40]  L         MM 2022       64.44     80.52     86.77       -        -
                     LGUR [41]    L         MM 2022       65.25     83.12     89.00       -        -
                      IVT [42]    G       ECCVW 2022      65.59     83.11     89.21       -        -
                     BLIP [43]    G        ICML 2022      65.61     82.84     88.65      58.02     -
                    TransTPS [44]  L       TMM 2023       68.23     86.37     91.65       -        -
                     CFine [29]   L         TIP 2023      69.57     85.93     91.15       -        -
                      Ours        G           -           73.55     89.30     93.86      66.28    50.68

                                     表 3 各方法在     ICFG-PEDES  数据集上的实验结果对比 (%)

                      方法         类型          来源          Rank-1    Rank-5    Rank-10     mAP      mINP
                    Dual Path [7]  G      TOMM 2020      38.99      59.44     68.41       -        -
                    CMPM/C [10]   L        ECCV 2018     43.51      65.44     74.26       -        -
                    ViTAA [12]    L        ECCV 2020     50.98      68.79     75.78       -        -
                     SSAN [24]    L        arXiv 2021    54.23      72.63     79.53       -        -
                     IVT [42]     G       ECCVW 2022     56.04      73.60     80.22       -        -
                    ISANet [34]   L       TNNLS 2023     57.73      75.42     81.72       -        -
                     CFine [29]   L         TIP 2023     60.83      76.55     82.42       -        -
                      Ours        G           -          63.32      80.30     85.81      38.14    7.84

                                       表 4 各方法在    RSTPReid  数据集上的实验结果对比 (%)

                      方法         类型          来源          Rank-1    Rank-5     Rank-10    mAP      mINP
                    Dual Path [7]  G      TOMM 2020       38.99     59.44     68.41       -        -
                    CMPM/C [10]   L        ECCV 2018      43.51     65.44     74.26       -        -
                    ViTAA [12]    L        ECCV 2020      50.98     68.79     75.78       -        -
                     SSAN [24]    L        arXiv 2021     54.23     72.63     79.53       -        -
                     IVT [42]     G       ECCVW 2022      56.04     73.60     80.22       -        -
                    ISANet [34]   L       TNNLS 2023      57.73     75.42     81.72       -        -
                     BLIP [43]    G        ICML 2022      58.25     77.85     85.65      44.08     -
                    TransTPS [44]  L       TMM 2023       56.05     78.65     86.75       -        -
                     CFine [29]   L         TIP 2023      60.83     76.55     82.42       -        -
                      Ours        G           -           59.25     82.40     88.90      46.80    24.85

                    首先, 我们在最流行且广泛使用的基准             CUHK-PEDES  上评估我们的方法. 如表       2  所示, 我们的方法优于所有
                 最先进的方法, Rank-1、 mAP    和  mINP  分别达到了   73.55%、66.28%  和  50.68%. 特别是, 我们的模型优于相同的
                 基于  CLIP  的  CFine, Rank-1、Rank-5、Rank-10  分别提升了  3.98%、3.37%、2.71%. 这可归功于我们提出的隐式
                 多尺度对齐模块. 不同于        CFine  的单独提取图文全局和局部特征, 我们的模型利用语义一致特征金字塔网络
                 SCFP  将不同尺度的特征向量沿通道方向拼接, 获得有多尺度信息的特征图. 因此, 本文在跨模态行人检索方面效
                 率更高.
                    为了全面评估我们方法的泛化能力, 我们将其与                ICFG-PEDES  和  RSTPReid  两个基准数据集上的现有研究成
                 果进行了对比, 结果如表       3  和表  4  所示. 数据显示, 我们的方法在这两个数据集上与最新的主流方法的性能接近.
   455   456   457   458   459   460   461   462   463   464   465