Page 364 - 《软件学报》2021年第12期
P. 364
4028 Journal of Software 软件学报 Vol.32, No.12, December 2021
唯一有标签数据 合并
迭代训练
初始化
视频片段 特征提取 选作下一次训练的伪标签数据
Temproal average pooling
新的度量中心点
共享权重 ...
提取 真实标签 N 无标签数据特征
...
...
0 数据特征
伪标签数据特征
分类
无标签数据 CNN 模型 特征空间
Fig.2 Overall framework of NCI strategy
图 2 NCI 策略整体框架
2.2 标签评估标准
以往的标签评估方法 [9,25] 中,有标签数据作为固定度量中心,在每轮训练中为最近的无标签数据进行伪标
签分配.如图 1 所示,这一方法是有很大弊端的:原始有标签视频片段在特征空间内同类中的相对位置是固定的;
且当原始有标签视频片段在特征空间中处于同类的边缘或者远离类中心的点时,每次训练会预测出更多错误
的伪标签,随着选取伪标签数据S的增大(例如图中选取 80%),选取到不可靠数据的概率变得更大.
针对这种情况,提出了一种新的标签评估标准.在迭代过程中,利用得到的可靠集合D中每个类的中心,作为
下一次训练预测伪标签的度量中心点.具体来说,每次训练结束,训练完的模型提取无标签视频片段的特征并嵌
入特征空间,此时,无标签数据特征与上一次训练所得的集合D中每个类的中心(初次训练D中每个行人只有一
个初始数据,则以此为类中心)依次计算距离,距离最近的类的标签则为该无标签视频片段的伪标签.然后,无标
签视频片段与为其分配伪标签的度量中心的距离排序,按比例选取距离较小并带有伪标签的无标签视频片段
作为可靠伪标签数据候选集S,并与L合并为D,作为下一次训练的数据集.依次迭代,直至用完所有无标签视频
片段.这样能够使得每次选取的度量中心更准确地反映出特征空间内每个类中的特征的集中趋势,能够更加接
近类的真实中心,使得每次预测的伪标签更加准确.
如图 3 所示(图 3 共有 3 类:实心圆表示无标签数据特征,空心圆表示该类的初始有标签数据特征,五角星代
表上一次训练所得集合D的类中心,虚线圆内与空心圆颜色不同的点则表示伪标签标注错误的数据,此时则以
五角星为中心选取一定比例的伪标签数据用于下一次训练):当初始训练后,以唯一有标签样本为中心点选取
20%的数据,在之后训练中依次以新的中心(五角星)为度量中心点选取 40%,80%的数据.可以明显地看到:前一
次迭代选取的伪标签数据与初始有标签数据合并之后产生的新的度量中心点更加接近类的真实中心,而相比
于图 1 预测出更多正确的伪标签.因此,近邻中心迭代策略中的标签评估标准,能够极大地提高每次伪标签预测
的准确率,进而提高最终结果.
数据样本的集中趋势描述有平均数、中位数等,本文分别用平均中心和中位数中心计算特征空间的样本中
心.由于 MARS 数据集采样的摄像头较多且场景较为复杂,可能在特征空间中离群点较多,因此使用中位数中心
更为合适.DukeMTMC-VideoReID 数据集场景相对简单,则使用平均中心更合适.用 R 表示D中所有类的中心的
集合,其中,平均中心公式可表示为
1
R = ∑ d (2)
k N n d ∈D k n