Page 158 - 《软件学报》2021年第11期

P. 158

3484 Journal of Software 软件学报 Vol.32, No.11, November 2021

[2]
(1) 域差异:如图 1 所示,标准的图像数据集与真实应用中用户上传的视频存在差异 .例如:标准的图像数
据具有较高的分辨率、对象一般位于图像的中心区域、背景信息也相对简单;而用户上传的视频数
据则具有分辨率低、对象位置不确定、背景信息复杂等特点.这些差异均导致了两个域数据分布的
不一致.
(2) 模态差异:图像只有静态的空域信息,但是除此之外,视频还有动态的时域信息,这使得细粒度视频分
类更具有挑战性.
因此,将知识从图像数据迁移到视频数据包含了两层含义:(1) 从标准封闭数据集向真实应用场景的开放
数据集的迁移;(2) 从空域向时域的迁移.此外,考虑到细粒度视频分类“类内差异大、类间差异小”的挑战,从图
像到视频的无监督跨域和跨模态细粒度适应学习是一项极具挑战的任务.
因此,本文将知识从源域标注的图像数据迁移到目标域未标注的视频数据,旨在实现无监督的细粒度视频
分类.首先,本文提出了一种无监督辨识适应网络(unsupervised discriminative adaptation network,简称 UDAN),
能够将辨识性定位能力从细粒度图像分类迁移到细粒度视频分类;然后,本文提出了一种渐进式伪标签策略来
迭代地引导无监督辨识适应网络学习目标域视频的数据分布.本文是细粒度视觉分类领域中,从图像到视频跨
域、跨模态的无监督工作,能够有效地降低视频数据标注的巨大成本,进一步推动细粒度视频分类的研究与应
用.为了验证本文 UDAN 方法的有效性,本文将辨识定位能力从 CUB-200-2011、Cars-196 图像数据集迁移到
YouTube Birds、YouTube Cars 视频数据集.实验结果验证了本文 UDAN 方法能够在无监督细粒度视频分类上
取得当前最好的分类准确率.

1 相关工作

本节对细粒度视觉分类、域适应的相关工作进行了简单概述.其中,细粒度视觉分类是本文的目标任务,而
域适应是本文的聚焦点.
1.1 细粒度视觉分类
细粒度视觉分类是计算机视觉领域最具挑战的任务之一,在学术界和工业界都得到了广泛关注.细粒度视
觉分类在实际生活中也有着丰富的应用场景,如无人驾驶、动植物保护、癌症检测、海洋作业等,因此具有重
要的研究和应用价值.
现有细粒度视觉分类一般聚焦在细粒度图像分类,而细粒度视频分类的相关研究还相对较少.本节主要从
细粒度图像分类和细粒度视频分类两个方面对细粒度视觉分类进行介绍.
1.1.1 细粒度图像分类
细粒度图像分类一般划分为基于定位的方法、基于编码的方法以及基于文本或属性的方法.
• 基于定位的方法
由于不同的细粒度类别之间外表相似,仅在一些局部区域存在细微的差异,因此,研究者们一般采取如下的
方法流程:首先定位到图像中的辨识性区域,如鸟的头部、翅膀、尾部等,这是现有细粒度图像分类方法的关键;
[3]
然后,学习并提取辨识性区域的特征以进行细粒度分类.Zhang 等人分别利用对象位置信息(bounding box)和
部件位置信息(part location)来训练对象检测器和部件检测器,在测试过程中,利用两个检测器来定位图像中的
对象区域及其部件区域.但是对象和部件位置信息的标注极其耗时耗力,标注成本十分巨大.因此,研究者开始
聚焦于如何在不使用对象和部件位置信息标注的情况下自动定位图像中的辨识性区域.
[4]
Krause 等人仅使用对象位置信息来训练部件检测器,避免了部件位置信息的使用.为了进一步降低标注
[5]
[6]
成本,Xiao 等人首先利用选择搜索的方法(selective search) 对每一张图像生成多个候选图像块;然后利用对
象级和部件级的注意力机制,从候选图像块中选出具有辨识性的区域.这是一种弱监督(weakly-supervised)的学
习方式,既不使用对象位置信息,也不使用部件位置信息.在这之后,多个弱监督细粒度图像分类方法 [7,8] 相继提
出,进一步推动了细粒度图像分类的研究与应用.

153 154 155 156 157 158 159 160 161 162 163