Page 159 - 《软件学报》2021年第11期
P. 159

何相腾  等:跨域和跨模态适应学习的无监督细粒度视频分类                                                    3485


                    •   基于编码的方法
                    一些工作聚焦于特征表示学习,其主要方法是对卷积神经网络(convolutional neural  network,简称 CNN)的
                                                                      [9]
                 特征图(feature map)进行统计编码,以获取更好的特征表示.Lin 等人 提出了双线性汇合方法(bilinear pooling),
                 通过计算 CNN 特征图的格拉姆矩阵来捕获特征通道之间成对的相关关系,从而获得更好的特征表示,以提升细
                 粒度图像分类准确率.受到双线性汇合方法的启发,Gao 等人                    [10] 进一步提出了紧凑双线性汇合方法(compact
                 bilinear pooling),通过 CNN 特征图低维投影的内积近似二次多项式核来降低双线性汇合方法的高维度.Cui 等
                 人 [11] 进一步利用核近似获取更高阶的特征表示.Wang 等人             [12] 学习辨识性过滤器,并将其应用到 CNN 中使得其
                 更加关注辨识性特征的学习.
                    •   基于文本或属性的方法
                    由于图像的文本描述信息(如这是一只白色翅膀、橙色喙的海鸥)以及图像的属性信息(如白色翅膀、橙色
                 鸟喙等)能够提供图像中对象的细粒度辨识性信息,与图像的视觉信息互为补充,能够进一步促进图像的特征表
                 示学习.因此,研究者开始研究基于文本或属性的方法.He 等人                   [13] 提出联合建模文本和视觉信息的方法,挖掘二
                 者之间的关联信息以提升细粒度图像分类的准确率.Chen 等人                      [14] 利用属性信息来构建知识图(knowledge
                 graph),进一步通过图卷积神经网络来学习图像的辨识性特征.
                 1.1.2    细粒度视频分类
                    相比于图像,视频通常包含了更丰富的辨识性信息,因此,研究者们开始关注细粒度视频分类任务.Saito 等
                                                                                      [1]
                 人 [15] 构建了一个细粒度视频数据集来探索运动信息在细粒度分类中的有效性.Zhu 等人 构建了两个大规模细
                 粒度视频数据集,并且提出了冗余降低注意力网络来降低 CNN 模型中特征的冗余信息,从而学习得到细粒度的
                 辨识信息.本文的目标是充分发挥在图像数据中学习到的知识,利用细粒度图像分类来实现无监督条件下的细
                 粒度视频分类.
                 1.2   域适应
                    域适应(domain adaptation)任务也是计算机视觉领域的研究热点之一.随着域的变化,例如从源域数据(标准
                 的图像分类数据集)到目标域数据(用户上传的视频),输入数据 X 和输出标签 Y 的分布 P(X,Y)会随之发生变化.
                 影响 P(X,Y)变化的因素主要包括空间位置信息变化、外表多样性、图像质量等变化                          [16] ,这些因素的变化均会导
                 致在源域数据上学习得到的模型在目标域数据上的效果很差                      [17] .
                    在细粒度视觉分类领域,仅有少数工作者做了域适应的相关工作,他们一般聚焦于从源域图像数据向目标
                 域图像数据的迁移.Gebru 等人       [18] 提出一种基于属性的多任务域适应算法,能够从标准的图像数据集向真实用
                 户图像的迁移.Cui 等人      [19] 从大规模图像数据集中学习知识,然后适用于小规模图像数据集.这些工作都充分利
                 用了源域图像数据中已学习到的知识,有效地提升了模型在目标域图像数据上的分析效果.
                    本文研究的域适应任务的源域数据是标准的图像,目标域数据是用户上传的真实视频.这涉及到模态的迁
                 移(由图像到视频)、域的迁移、小规模数据向大规模数据的迁移.并且本文所研究的是无监督条件下的细粒度
                 域适应任务,目标域数据的标注信息是不可以在训练过程中使用的.这是一个无监督的从图像到视频的细粒度
                 域适应工作.
                 2    无监督细粒度视频分类

                    本文提出了无监督辨识适应网络,通过联合辨识最大均值差异准则(joint discriminative maximum  mean
                 discrepancy,简称 JDMMD),将在源域图像数据中学到的辨识性定位能力迁移到目标域的视频数据中.进一步,本
                 文提出了一种渐进式伪标签策略,通过迭代的方式引导 UDAN 模型近似估计目标域视频数据的分布.
                 2.1   问题定义
                    本文所研究的问题是无监督条件下的细粒度视频分类,旨在将知识从标注的源域图像数据迁移到未标注
                 的目标域视频数据中.问题的定义描述如下:
   154   155   156   157   158   159   160   161   162   163   164