Page 274 - 《软件学报》2020年第9期
P. 274

祁磊  等:弱监督场景下的行人重识别研究综述                                                           2895


             表 5 展示了现有无监督的方法在 MSMT17 数据集上的结果,其中,*表示没有使用有标记的源域数据进行模
         型的预训练(即直接使用 ImageNet 预训练的模型),−表示没有对应的实验结果,Market-1501/DukeMTMC-reID/
         CUHK03 表示分别使用这 3 个数据集作为源域的实验结果.

                             Table 5    Results of existing unsupervised methods on MSMT17
                               表 5   现有无监督的方法在 MSMT17 数据集上的结果

                                    Market-1501/DukeMTMC-reID/CUHK03→MSMT17
                           方法       μΑΠ      Ρανκ−1    Ρανκ−5    Ρανκ−10    发表
                          SSG  [48]    13.2/13.3/−   31.6/32.2/−   −−   49.6/51.2/−   ICCV2019
                         PTGAN [65]  2.9/3.3/1.7   10.2/11.8/6.5   −−   24.4/27.4/17.2   CVPR2018
                          ECN [68]    8.5/10.2/−   25.3/30.2/−   36.3/41.5/−   42.1/46.8/−   CVRP2019
                          *AE [70]    8.5     26.6       37       41.7     arxiv 2019
                          AE [70]    9.2/11.7/−   25.5/32.3/−   37.3/44.4/−   42.6/50.1/−   arxiv 2019
                         LAIM [69]    15.2/16.0/−   40.4/42.5/−   53.1/55.9/−   58.7/61.5/−   arxiv 2019
             对于基于伪标记的方法,TJ-AIDL        [46] 是通过结合属性学习并对目标域中的数据生成伪属性的方法来进行
         学习的;TFusion-uns [47] 利用时序信息产生更可靠的伪标记信息;PAUL            [44] 和 MAR [43] 以有标记的源域数据为基
         准,生成无标记目标域的伪标记信息;DC             [55] ,HCR [99] ,BUC [52] ,PCB-R-PAST [50] ,SSG [48] ,ISSDA [53] 和 ACT [54] 都是基
         于聚类的算法,其中,ACT 对聚类后的结果进行了进一步处理,以便于找出确定性的伪标记信息和非确定性的伪
         标记信息,因此相对于其他方法,该方法能够得到相对更好的结果.另外,从表 3 和表 4 中可以发现,基于聚类的伪
         标记方法相对于其他伪标记的方法有更好的性能.
             对于基于图像生成的方法,当前 CR-GAN           [57] 的性能最优.不同于其他从领域层级或摄像头层级的风格迁移,
         如 PTGAN  [65] ,SPGAN [63] 和 ATNet [58] 等,CR-GAN 是基于图像层级的风格转化,即根据一张特定图像的风格对一
         张目标的图像进行图像风格的迁移.因此,该方法相对于其他方法有更好的性能.此外,在所有这些基于图像生
         成的方法中,HHL     [59] 只使用了图像生成网络对目标域内的不同摄像头间的图像进行转化,以产生不同摄像头风
         格的正样本对.
             对于基于实例分类的方法,当前方法基本都是关注在如何建立样本间的关系上,其中,LAIM                              [69] 引入了图的
         关系来增强找出相同实例的可靠性,因此,该方法目前在此类型的方法中具有较好的表现.
             对于基于领域自适应的方法,MMFA           [71] 使用传统的 MMD 方法来减少领域间差异.在行人重识别问题中,数
         据分布的差异不仅存在于领域间,也存在于相同领域的不同摄像头间,而 CAT                         [73] 和 UCDA [74] 都考虑到了这一方
         面,提出了基于摄像头感知的领域对抗学习.对比于 CAT,UCDA 提出了一种跨领域等视角的对抗学习方法来减
         少所有摄像头视角层级的数据分布的差异,并且利用了时序信息在无标记的目标域中挖掘判别性信息,以保证
         在减少数据分布差异的过程中目标域数据内部结构的不变性.因此在该类方法中,UCDA 目前具有最好的性能.
             对比这几大类方法,基于图像生成的方法和基于领域自适应的方法相较于基于伪标记的方法和基于实例
         分类的方法表现性能相对较弱.主要原因可能是基于图像生成或领域自适应的方法可以看作是从数据分布的
         层级来解决无标记的学习问题,其中,基于图像生成的方法旨在缩小源域和目标域图像分布间的差异,而基于领
         域自适应的方法是从特征表示的层级来缩小领域间的差异.这些方法属于隐式地解决无标记的问题,而基于伪
         标记或实例分类的方法是显式地通过对无标记的数据直接产生伪标记或者是建立这些样本间的关联来进行学
         习.因此,基于伪标记和实例分类的方法相比较于其他方法能够更加直接地解决无标记行人重识别问题.
         5.2   半监督方法
             在本节,我们总结了当前基于深度学习的半监督行人重识别算法在 3 个大规模图像数据集 Market1501                             [88] ,
         DukeMTMC-reID [32]  和 MSMT17 [65] 以及 3 个大 规模视 频数 据集 MARS      [96] ,DukeMTMC-VideoReID [84]  和
         DukeMTMC-SI-Tracklet [97] 上的实验结果.特别地,当前在行人重识别问题半监督的定义有很多种,本节总结的方
         法包括:(1)  少部分人有标记的场景,如 Distilled-ReID       [80] 和 MVC [81] ;(2)  每一个人有少量标记的场景,如 One-
         Example [82] ;(3)  基于 tracklet 的场景,例如 TAUDL [83] ,UTAL [84] ,TSSL [100] ,TASTR [101] 和 UGA [75] ;(4)  摄像头內有标
   269   270   271   272   273   274   275   276   277   278   279