Page 459 - 《软件学报》2025年第10期
P. 459

4856                                                      软件学报  2025  年第  36  卷第  10  期


                    ICFG-PEDES [24] 包含  4 102  个身份的  54 522  个图像, 包含了比  CUHK-PEDES  更多的以身份为中心和细粒度
                 的文本描述. 每个图像只有一个对应的文本描述. 该数据集分为训练集和测试集, 训练集包含                            34 674  个图像-文本
                 对, 其中有  3 102  个标识, 而测试集包含    19 848  个图像-文本对, 用于剩余的     1 000  个标识.
                    RSTPReid [18] 包含来自  15  个摄像头的  4 101  个身份的  20 505  张图像. 每个身份都有  5  张由不同摄像机拍摄的
                 对应图像, 每个图像都有       2  个文本描述. 拆分官方数据之后, 分别使用          3 701、200  和  200  个身份进行训练、验证和
                 测试. 每个句子不少于      23  个单词.
                    本文的评估指标采用排名前           k 命中率  Rank-k (k=1, 5, 10) 作为主要的评价度量. 当给定一个查询文本描述, 所
                 有图库图像都根据其相似度值进行排名. 成功的搜索意味着在前                     k 个图像中存在匹配的人物图像. 另外, 对于综合
                 评价, 我们还采用了平均正确率均值           (mAP) 和平均逆负惩罚      (mINP) 作为另外的检索准则. Rank-k、mAP      和  mINP
                 的值越高, 性能越好.
                  3.2   实验配置及细节
                    我们使用    PyTorch  实现了所提出的模型, 在单个       RTX 3090 24 GB GPU  上进行了训练. 本文采用     CLIP  的图像
                 编码器   ViT  提取视觉特征, 所有输入图像的大小均调整为             384×128, 在训练过程中采用随机水平翻转、随机填充
                 裁剪和随机擦除等方法增强图像数据. 本文采用               CLIP  的文本编码器    Transformer 提取文本特征, 将文本序列的最
                 大长度设置为     L=100. 图像和文本特征的嵌入维度被设置为            d=768. 对于多元交互编码器的每一层, 头的大小和个
                 数被设置为    512  和  8. 在训练阶段, 我们采用   Adam  作为优化器, 训练    200  个周期, 批量大小为    32, 学习速率初始化
                                                                                                    −5
                       −5
                 为  1×10 , 余弦学习速率衰减. 初始时, 我们花了          5  个周期来预热, 将学习速率从       1×10 −6   线性增加到  1×10 . 对
                                                            −5
                 于随机初始化的模块, 我们将初始学习速率设置为                5×10 . CMPM  损失函数中的温度超参数        τ 设置为  0.02.
                    在测试阶段, 使用余弦距离来度量图像-文本对的相似度值. 根据文本查询, 对相似度得分进行排序, 从图像库
                 中检索出人物图像.
                  3.3   与  SOTA  方法的对比分析
                    为了验证本方法在文本-图像行人重识别任务中的优越性, 我们将所提方法与现有主流方法在                              CUHK-PEDES、
                 ICFG-PEDES  及  RSTPReid  这  3  个数据集上进行比较, 结果如表    2–表  4  所示. 这些方法可分为两类: (1) 以     GNA-
                                                                               [5]
                     [6]
                            [9]
                                       [7]
                 RNN 、IATV 、Dual Path  等方法为代表的全局匹配方法; (2) 以           PWM+ATH 、GLA    [22] 、ViTAA [12] 等方法为
                 代表的局部匹配方法. 我们的方法在所有             3  个基准数据集上始终取得最先进的结果, 并取得了重大改进.

                                     表 2 各方法在    CUHK-PEDES  数据集上的实验结果对比 (%)

                       方法         类型          来源         Rank-1    Rank-5     Rank-10    mAP      mINP
                           [6]
                    GNA-RNN        G       CVPR 2017      19.05      -         53.64      -        -
                         [9]
                      IATV         G        ICCV 2017     25.94      -         60.48      -        -
                            [5]
                    PWM+ATH        L       WACV 2018      27.14     49.45      61.02      -        -
                         [22]
                      GLA          L       ECCV 2018      43.58     66.93      76.26      -        -
                           [7]
                    Dual Path      G       TOMM 2020      44.40     66.26      75.07      -        -
                          [10]
                    CMPM/C         G       ECCV 2018      49.37      -         79.27      -        -
                          [19]
                     TIMAM         G        ICCV 2019     54.51     77.56      84.78      -        -
                          [12]
                     ViTAA         L       ECCV 2020      55.97     75.84      83.52      -        -
                         [20]
                     NAFS          L        arXiv 2021    59.94     79.86      86.70      -        -
                         [18]
                     DSSL          L        MM 2021       59.98     80.41      87.56      -        -
                         [24]
                     SSAN          L        arXiv 2021    61.37     80.15      86.73      -        -
                          [33]
                    LapsCore       L        ICCV 2021     63.40      -         87.80      -        -
                          [34]
                     ISANet        L       TNNLS 2023     63.92     82.15      87.69      -        -
                         [35]
                     LBUL          L        MM 2021       64.04     82.66      87.22      -        -
                         [36]
                     TBPS          G       BMVC 2021      64.08     81.73      88.19     60.08     -
   454   455   456   457   458   459   460   461   462   463   464