Page 366 - 《软件学报》2021年第12期
P. 366

4030                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         个有效的损失函数训练策略,联合训练 OIM Loss 和 CrossEntropy Loss 两个损失函数:
                                          loss=β⋅loss OIM +(1−β)loss Ce                       (8)
                                         0.5 0.5 ( p− ⎧  ⋅  −  p  ), p ≥  p
                                     β = ⎨        Ce  OIM  Ce   OIM                           (9)
                                        ⎩ 0.5 0.5 (p+  ⋅  OIM  −  p Ce ), p <  Ce  p OIM
         其中,p Ce 和 p OIM 表示训练过程中两个损失评估的精度;β是一个可变参数,用于动态分配权重.损失函数的评估精
         度高,则分配大一点的权重;评估精度低,则分配小一些的权重.通过动态地调整训练权重,使得在训练过程中模
         型能够更加稳定,表现得更加鲁棒,无标签数据的伪标签精度更高.通过两个大型数据集上的实验,也验证了本
         文的损失控制策略的有效性.

         4    实验与分析

         4.1   数据集
                  [7]
             MARS 数据集是视频行人重识别任务中最大的数据集,数据集包含 1 261 个行人,共有 17 503 个视频片段
         和 3 248 个干扰视频片段.其中,625 个行人用于训练,636 个行人用于测试.训练集中每个行人平均有 13 个视频
         片段,每个视频片段平均有 816 帧.
             DukeMTMC-VideoReID [26] 数据集包含 1 812 个行人,共有 4 832 个视频片段.并将行人分别划分为 702,702
         和 408 份,分别用于训练、测试和干扰.总共 2 196 个视频片段用于训练以及 2 636 个视频片段用于测试和干扰.
         每个视频片段平均有 168 帧.
             本文使用累积匹配特征(cumulative matching  characteristic,简称 CMC)曲线和平均准确率(mean average
         precision,简称 mAP)来评估每次迭代模型的性能,并使用符号M表示最终预测无标签视频片段伪标签准确率.
         4.2   实验设置
             在两个数据集中,为每个行人随机选择摄像机 1 中的一个视频片段作为初始化有标签数据集L.如果摄像机
         1 没有该行人,将在下一台摄像机中随机选择一个视频片段,以确保每个行人都有一个用于初始化的视频片段.
             实验中,本文使用 ImageNet    [27] 预训练去掉最后的分类层的 ResNet50 作为 NCI 的初始模型.采用动量为 0.5
         且权重衰减为 0.000 5 的随机梯度下降(SGD)优化方法.整体学习率初始化为 0.1,并在最后 15 个周期衰减为
         0.01.在用损失函数控制策略训练的时候,由于初始数据过少,本文使用 CrossEntropy Loss 来进行前几次迭代的
         训练,以获得稳定的伪标签数据;之后使用本文提出的损失函数控制策略,使得实验过程更加稳定、效果更好.
         4.3   实验对比

         4.3.1    参数分析
             当训练循环到第 t 步,本文会选择 t×p 比例的带有伪标签的无标签视频片段用作下一次的模型训练.其中,
         增长率 p 的影响见表 1、表 2.p 取 0.05~0.3 时,p 值越小,rank-1,mAP 的精度越高.且当 p=0.05 时,rank-1,mAP 和
         伪标签的精度最高,模型性能最好.如图 4 所示,当 p 取 0.05,0.10 和 0.20 时,前面几次迭代 3 张图曲线间的间隙
         不大,然而后面曲线间的间隙则越来越大,并且 p 取 0.05 时的曲线明显高于 0.10 和 0.20.原因是错误标签评估在
         迭代过程中会不断累积,选取伪标签越多错误的累积影响越大.因此,增长率 p 扩大的越缓慢,选取的正确伪标签
         越多,从而模型精度 rank-1,mAP 越高.综合分析,p 值取小一些效果会更好.本文以下阐述以 p=0.05 和 p=0.1 的结
         果进行比较.
             在选取特征空间的数据中心点时,本文使用了平均中心和中位数中心.结果见表 1:p 取 0.05~0.3 时,在
         MARS 数据集上,中位数中心比平均中心伪标签精度明显更高.其中:当 p=0.05 时,中位数中心比平均中心预测
         伪标签精度高 1.63%;当 p=0.10 时,中位数中心比平均中心伪标签精度高 2.43%.而 p 取 0.05~0.3 时,在
         DukeMTMC-VideoReID 数据集上,平均中心比中位数中心伪标签精度明显更高.其中,p=0.05 时,平均中心比中
         位数中心伪标签精度高 0.8%;当 p=0.10 时,平均中心比中位数中心伪标签精度高 0.87%.因此,本文实验选用中
         位数中心作为 MARS 数据集的标签评估方式,平均中心作为 DukeMTMC-VideoReID 数据集的标签评估方式.
   361   362   363   364   365   366   367   368   369   370   371