Page 363 - 《软件学报》2021年第12期
P. 363

张云鹏  等:邻中心迭代策略的单标注视频行人重识别                                                        4027


         1    相关的研究工作

             对于监督视频行人重识别,新出现了许多基于深度学习的方法                      [14−18] ,如:文献[14]将细化循环单元模块和时
         空线索聚合模块用于恢复缺失帧和利用上下文信息,从而获得行人视频片段的特征表示;文献[17]提出时空注
         意力感知学习方法,旨在视频序列的时空上关注视频中行人的重要部分,以解决行人图像质量因不同的时间空
         间区域变化而变化的问题;文献[18]提出了判别聚合网络方法,直接聚合原始视频帧,且结合度量学习和对抗学
         习的思想生成更多的判别图像,减少每个视频处理的图像帧数,误导性信息的低质量帧也可以得到很好的过滤
         和去噪.对于无监督的视频行人重识别,文献[13]提出了半监督行人检测的 OIM Loss,它也可用于无监督的视频
         行人重识别;文献[19]提出了一种自底向上聚类方法(bottom-up clustering,简称 BUC)来联合优化 CNN 和无标签
         样本间的关系,并且在聚类过程中利用了一个多样性正则项来平和每个聚类的数据量.
             以往的半监督行人重识别方法大多数是基于图像                  [20−23] 行人重识别.近期出现了不少半监督视频行人重识
         别方法,如 Zhu 等人    [24] 提出了一种基于半监督交叉视图投影的字典学习方法;也出现了一些单标注视频行人重
         识别任务的方法,如 Liu 等人      [10] 用有标签的样本初始化模型,计算出与查询集样本最接近的 k 个样本并且删除其
         中的可疑样本,再将其余样本添加到训练集中,重复该过程直到算法收敛为止;Ye 等人                             [11] 提出了一种动态图匹
         配(dynamic graph matching,简称 DGM)方法,该方法迭代更新图和标签估计,以学习更好的特征空间;Wu 等人                     [9]
         使用一个逐步利用无标签视频片段的策略(exploit the unknown gradually,简称 EUG),先用有标签视频片段初始
         化网络模型,再根据与有标签数据的距离将伪标签数据线性合并到训练集中进行后续的训练;文献[25]用了一
         个单标注样本渐进学习的方式(progressive learning,简称 PL),将标签数据、伪标签数据和索引标签数据这 3 个
         部分在迭代过程中联合训练模型.但是文献[10,11]中采用静态策略来确定每次训练所选择的伪标签数据的数
         量的方法是不合理的,因为初始模型可能不健壮,只有少数伪标签预测在初始阶段是可靠和准确的,如果选择与
         后期训练相同数量的数据,则不可避免地会出现更多错误的伪标签数据.而文献[9,25]中将有标签视频片段特征
         作为固定度量中心也会得到大量不准确的伪标签数据.因此本文提出了近邻中心迭代策略,从一定程度上解决
         伪标签错误率低的问题.

         2    近邻中心迭代策略

         2.1   基本框架
             本文将每个行人唯一有标签视频片段集合表示为 L                   =  {( , ),...,(xy 1  x  l n  , y  l n  )} ,无标签的视频片段集合表示为
                                                          1
            =
          U   {(x  ),...,(x  )} ,其中,x i ,y i 分别表示第 i 个视频片段和行人标签.因此有|L|=n l 和|U|=n u ,其中,|⋅|表示集合内
                l n +  1  l n +  u n
         元素的个数.s i ∈{0,1}作为伪标签样本 x i 选作下一次训练的选择指示器.
                                                         [9]
             在迭代训练过程中,采用的是一种常见的渐进学习方式 ,每次训练选取一定比例可靠的伪标签视频片段
         用于下一次训练.S表示选取下一次训练的伪标签数据的候选集:
                                      S  =  {(x y ˆ , ) | s =  i  i  1,n +  l  1≤≤  n +  l  n u }  (1)
                                                         i
                                           i
         其中, ˆ y 表示第 i 个无标签视频片段的伪标签.
               i
             本文方法的具体框架如图 2 所示,采用 ResNet-50 结构的端到端模型作为特征提取网络,且在分类层前面加
         上了一个全连接层和一个时间平均池化层.对于每一个视频片段,当所有图片被提取为帧级特征后,时间平均池
         化层将所有的帧级特征合并,作为视频片段的特征表示.
             初始训练时,使用唯一有标签视频片段集合L来初始化模型,再用训练好的模型提取U中无标签视频片段特
         征,每个无标签视频片段的伪标签由特征空间中距离最近的度量中心点的标签进行分配,然后产生每个无标签
         视频片段的选择指示器 s i ,并根据公式(1)来得到候选集S.在之后的迭代中,每次候选集S和初始的标签数据L合
         并为新的数据集D,D=S∪L.D则作为下一次训练用的训练集.且在训练过程中,S随着训练次数的增加而不断地
         扩大.
   358   359   360   361   362   363   364   365   366   367   368