Page 366 - 《软件学报》2021年第12期
P. 366
4030 Journal of Software 软件学报 Vol.32, No.12, December 2021
个有效的损失函数训练策略,联合训练 OIM Loss 和 CrossEntropy Loss 两个损失函数:
loss=β⋅loss OIM +(1−β)loss Ce (8)
0.5 0.5 ( p− ⎧ ⋅ − p ), p ≥ p
β = ⎨ Ce OIM Ce OIM (9)
⎩ 0.5 0.5 (p+ ⋅ OIM − p Ce ), p < Ce p OIM
其中,p Ce 和 p OIM 表示训练过程中两个损失评估的精度;β是一个可变参数,用于动态分配权重.损失函数的评估精
度高,则分配大一点的权重;评估精度低,则分配小一些的权重.通过动态地调整训练权重,使得在训练过程中模
型能够更加稳定,表现得更加鲁棒,无标签数据的伪标签精度更高.通过两个大型数据集上的实验,也验证了本
文的损失控制策略的有效性.
4 实验与分析
4.1 数据集
[7]
MARS 数据集是视频行人重识别任务中最大的数据集,数据集包含 1 261 个行人,共有 17 503 个视频片段
和 3 248 个干扰视频片段.其中,625 个行人用于训练,636 个行人用于测试.训练集中每个行人平均有 13 个视频
片段,每个视频片段平均有 816 帧.
DukeMTMC-VideoReID [26] 数据集包含 1 812 个行人,共有 4 832 个视频片段.并将行人分别划分为 702,702
和 408 份,分别用于训练、测试和干扰.总共 2 196 个视频片段用于训练以及 2 636 个视频片段用于测试和干扰.
每个视频片段平均有 168 帧.
本文使用累积匹配特征(cumulative matching characteristic,简称 CMC)曲线和平均准确率(mean average
precision,简称 mAP)来评估每次迭代模型的性能,并使用符号M表示最终预测无标签视频片段伪标签准确率.
4.2 实验设置
在两个数据集中,为每个行人随机选择摄像机 1 中的一个视频片段作为初始化有标签数据集L.如果摄像机
1 没有该行人,将在下一台摄像机中随机选择一个视频片段,以确保每个行人都有一个用于初始化的视频片段.
实验中,本文使用 ImageNet [27] 预训练去掉最后的分类层的 ResNet50 作为 NCI 的初始模型.采用动量为 0.5
且权重衰减为 0.000 5 的随机梯度下降(SGD)优化方法.整体学习率初始化为 0.1,并在最后 15 个周期衰减为
0.01.在用损失函数控制策略训练的时候,由于初始数据过少,本文使用 CrossEntropy Loss 来进行前几次迭代的
训练,以获得稳定的伪标签数据;之后使用本文提出的损失函数控制策略,使得实验过程更加稳定、效果更好.
4.3 实验对比
4.3.1 参数分析
当训练循环到第 t 步,本文会选择 t×p 比例的带有伪标签的无标签视频片段用作下一次的模型训练.其中,
增长率 p 的影响见表 1、表 2.p 取 0.05~0.3 时,p 值越小,rank-1,mAP 的精度越高.且当 p=0.05 时,rank-1,mAP 和
伪标签的精度最高,模型性能最好.如图 4 所示,当 p 取 0.05,0.10 和 0.20 时,前面几次迭代 3 张图曲线间的间隙
不大,然而后面曲线间的间隙则越来越大,并且 p 取 0.05 时的曲线明显高于 0.10 和 0.20.原因是错误标签评估在
迭代过程中会不断累积,选取伪标签越多错误的累积影响越大.因此,增长率 p 扩大的越缓慢,选取的正确伪标签
越多,从而模型精度 rank-1,mAP 越高.综合分析,p 值取小一些效果会更好.本文以下阐述以 p=0.05 和 p=0.1 的结
果进行比较.
在选取特征空间的数据中心点时,本文使用了平均中心和中位数中心.结果见表 1:p 取 0.05~0.3 时,在
MARS 数据集上,中位数中心比平均中心伪标签精度明显更高.其中:当 p=0.05 时,中位数中心比平均中心预测
伪标签精度高 1.63%;当 p=0.10 时,中位数中心比平均中心伪标签精度高 2.43%.而 p 取 0.05~0.3 时,在
DukeMTMC-VideoReID 数据集上,平均中心比中位数中心伪标签精度明显更高.其中,p=0.05 时,平均中心比中
位数中心伪标签精度高 0.8%;当 p=0.10 时,平均中心比中位数中心伪标签精度高 0.87%.因此,本文实验选用中
位数中心作为 MARS 数据集的标签评估方式,平均中心作为 DukeMTMC-VideoReID 数据集的标签评估方式.