Page 157 - 《软件学报》2021年第11期
P. 157

何相腾  等:跨域和跨模态适应学习的无监督细粒度视频分类                                                    3483


                    细粒度视觉分类(fine-grained visual categorization,简称 FGVC)是计算机视觉领域中一个重要且极具挑战
                 的任务,其旨在对粗粒度的大类(如鸟、车等)中相似的细粒度子类(如鸟类中的小白额燕鸥、普通燕鸥和福斯特
                 燕鸥等)进行识别.细粒度视觉分类主要有两大挑战:
                    (1)  类内差异大.如图 1 中的每一列所示,它们属于相同的细粒度子类,但受到不同视角和姿态等因素的影
                        响,在外表上具有较大差异.
                    (2)  类间差异小.如图 1 中的每一行所示,它们属于不同的细粒度子类,但是由于它们属于同一粗粒度的大
                        类,因此在颜色、形态等外表上差异细微,很难被区分.
                    这两大挑战使得细粒度视觉分类任务十分困难.现有方法一般聚焦在图像领域的细粒度分类(即细粒度图
                 像分类),而视频领域的相关研究(即细粒度视频分类)还相对较少.但是,随着手机等移动设备上视频娱乐交友软
                 件的快速发展,现在人们更加倾向于通过上传视频来记录他们的所见所闻以及表达他们的所感所想.视频数据
                 的海量动态增长,使得视频的管理变得极为重要,而细粒度视频分类就是进行视频管理的重要手段之一.






























                      Fig.1    Distinctions of domains and modalities between image and video, as well as the challenges of
                                fine-grained visual categorization: Large variance in the same subcategory
                                          and small variance among different subcategories
                            图 1   图像和视频之间存在的域差异和模态差异以及细粒度视觉分类任务的挑战:
                                                 “类内差异大、类间差异小”
                                                                      [1]
                    近年来,研究者开始逐渐关注到细粒度视频分类任务.Zhu 等人 构建了两个细粒度视频数据集,以推动细
                 粒度视频分类的进一步研究和应用.同时,Zhu 等人也提出了一种冗余减少注意力网络(redundancy reduction
                 attention network,简称 RRAN)来提高细粒度视频分类的准确率.但是,RRAN 的训练依赖于大量标注的视频数
                 据,而这些数据的标注是非常耗时耗力的,成本十分巨大.考虑到图像的标注成本相对较小,并且细粒度图像分
                 类已经取得了较为显著的进展,一个自然的想法是不用标注,以无监督的方式将知识从细粒度图像分类迁移到
                 细粒度视频分类.这能够有效减少视频数据的巨大标注成本,同时能够充分发挥细粒度图像分类模型的作用.
                    但是,从图像数据中学习到的模型很难直接应用于细粒度视频分类,主要是因为来源不同的图像和视频之
                 间存在两种类型的差异.
   152   153   154   155   156   157   158   159   160   161   162