Page 270 - 《软件学报》2020年第9期
P. 270
祁磊 等:弱监督场景下的行人重识别研究综述 2891
程中,结合有标记和伪标记的数据一起使用传统的交叉熵损失更新训练网络.对于暂未分配标记的数据,接下来
采用实例分类的方法,将每一个独立的样本当作一个类别并在网络中进行训练,然后基于训练好的网络再次重
新分配伪标记.该方法的学习过程也是采用迭代更新的方式.然而该场景存在一定的局限性,其很难拓展到实际
应用中.这是因为在该设定下,通常很难获得整个数据集上所有行人的数量,除非对整个数据集进行标记,这将
耗费大量的人工成本,与半监督设定的初衷相悖.因此,采用该设定的研究工作较少.
(3) 基于 tracklet 的学习
Li 等人 [83] 把行人重识别任务划分为摄像头內的学习和摄像头间的学习.对于摄像头內的学习,作者假设摄
像头內经过跟踪算法已得到若干 tracklet,并提出了一种基于时序的稀疏采样方法以获得摄像头內不重复的
tracklet(即这些 tracklet 尽可能属于不同的人),然后使用交叉熵损失来学习这些有标记的样本.对于摄像头间的
学习,作者提出一种损失函数以使得相近的跨摄像头的 tracklet 尽可能相似.在此基础上,Li 等人 [84] 进一步对摄
像头內的学习做出改进,不再需要选择一些不重复的 tracklet,即可以使用全部的 tracket,同时提出了一种软分类
学习的方式来自动探索摄像头內 tracklet 的关系.在这两个研究工作的实验过程中,作者给定了图像数据集中摄
像头內的标记信息.Wu 等人 [75] 沿用了文献[83]中 tracklet 的选择方式,该方法主要提出了基于图的关联方式来
建立跨摄像头 tracklet 之间的关联.特别地,基于视频的方法致力于使用给定的 tracklet 来探索时序信息,以便于
将其融入到特征表示中.然而,上述半监督方法主要是使用 tracklet 信息作为部分的标记信息来执行学习任务.
(4) 摄像头內有标记,摄像头间无标记
受基于无监督的 tracklet 的学习的启发,Qi 等人 [85] 定义了一种新的半监督行人重识别设定,并且分别从数
据分布的角度和伪标记学习的角度提出了两种不同的解决方案 [85,86] .在该设定下,每一个摄像头內均给定标记
信息,而摄像头间是没有标记信息的.由于在行人重识别问题中,标记摄像头间的信息需要花费大量的成本,而
摄像头內的标记信息可以借助于跟踪算法和少量的人工标记即可完成,因此这种半监督行人重识别的设定在
实际应用中有较大的意义.在文献[85]中,作者考虑到不同摄像头间数据分布的差异性(由背景、光照、视角等
因素带来的影响),提出了一种基于摄像头对齐的对抗学习网络,以将不同摄像头的数据映射到同一空间中.在
文献[86]中,作者通过在跨摄像头间生成渐进式的软标记来探索跨摄像头间样本之间的关系.同时,Zhu 等人 [87]
提出了类似的问题,即:对某一个摄像头中的数据,分别在其他每个摄像头下找到最相似的人.然而这样的方式
存在一个问题,即:当一个人在某个摄像头中没有出现的时候,该方法会强制性选择一个错误的样本进行关联.
4 数据集和评价标准
为了评估行人重识别的相关算法,我们往往需要在一些公开数据集上进行实验,并通过统一的评价标准来
评估所提出方法的性能.本节,我们对行人重识别的相关数据集和评价标准进行了总结.
4.1 数据集
近年来,行人重识别问题在科研中的关注逐渐得到提高,因此也出现了越来越多的更大规模的数据集.这些
数据集主要分为两类,即基于图像的数据集和基于视频的数据集.我们将选取部分常用的数据集分别进行介绍.
(1) 图像数据集
常用的图像数据集主要包括 Market1501 [88] ,DukeMTMC-reID [32] ,MSMT17 [65] 和 CUHK03 [89] ,这些数据集既
可以用于无监督任务,也可以用于半监督任务.其基本信息概括在表 1 中.
Table 1 Information of some image-based person re-identification datasets
表 1 部分行人重识别图像数据集信息
数据集 ID 数量 训练集 ID 数量 训练集图像数量 测试集 ID 数量 测试集图像数量 摄像头数量
Market1501 [88] 1 501 751 12 936 750 16 384 6
DukeMTMC-ReID [32] 1 404 702 16 522 702 17 661 8
MSMT17 [65] 4 101 1 041 32 621 3 060 82 161 15
CUHK03-NP [93] (labeled) 1 467 767 7 368 700 5 328 10(5 pairs)
CUHK03-NP [93] (detected) 1 467 767 7 365 700 5 332 10(5 pairs)