Page 163 - 《软件学报》2021年第11期

P. 163

何相腾等:跨域和跨模态适应学习的无监督细粒度视频分类 3489

图像有两种标注信息:1 个图像级的类别标签和 1 个图像中对象级的位置标注信息.
[1]
(3) YouTube Birds 数据集是新近构建的大规模细粒度鸟类视频数据集,共包含 18 350 个视频.与 CUB-
200-2011 数据集相同,涵盖了 200 个鸟类的细粒度子类别,而且二者的子类别种类完全相同.视频数据
来源于 YouTube 视频网站用户上传的真实视频,每个视频时长不超过 5 分钟.数据集的划分如下:训练
集包含 12 666 个视频,测试集包含 5 684 个视频.每个视频仅有一个视频级的类别标签信息.为了验证
无监督细粒度视频分类的可行性和有效性,在本文的实验中没有使用视频的标注信息.
[1]
(4) YouTube Cars 数据集同样是新近构建的大规模细粒度车类视频数据集,共包含 15 220 个视频.与
Cars-196 数据集相同,涵盖了 196 个车类的细粒度子类别,而且二者的子类别种类完全相同.数据集的
划分如下:训练集包含 10 259 个视频,测试集包含 4 961 个视频.每个视频仅有 1 个视频级的类别标签
信息.为了验证无监督细粒度视频分类的可行性和有效性,本文的实验中没有使用视频的标注信息.
Table 1 Data partitions on four fine-grained datasets
表 1 4 个细粒度数据集的数据划分
数据集训练集测试集
CUB-200-2011 5 994 张图像 5 794 张图像
Cars-196 8 144 张图像 8 041 张图像
YouTube Birds 12 666 个视频 5 684 个视频
YouTube Cars 10 259 个视频 4 961 个视频

3.2 评价任务和指标
3.2.1 评价任务
为了评价本文 UDAN 方法的有效性,本文设计了两种适应任务,分别是图像到视频帧的适应任务以及图像
到视频的适应任务.以 CUB-200-2011 和 YouTube Birds 两个数据集为例,见表 2.
(1) 图像到视频帧的适应任务(I→F):本文将 CUB-200-2011 数据集的训练图片作为源域数据,将 YouTube
Birds 数据集的测试视频作为目标域数据.对于 YouTube Birds 数据集的视频,本文抽取中间帧作为目
标域测试视频帧.
(2) 图像到视频的适应任务(I→V):本文将 CUB-200-2011 数据集的训练图片作为源域数据,将 YouTube
Birds 数据集的测试视频作为目标域数据.
需要注意的是:在训练过程中使用的是标注的 CUB-200-2011 数据集的训练图片和未标注的 YouTube Birds
数据集的训练视频,在测试过程中使用的是 YouTube Birds 数据集的测试视频.
Table 2 Two types of adaptation tasks
表 2 两种适应任务
适应任务源域数据目标域数据
图像到视频帧(I→F) CUB-200-2011 的训练集图像 YouTube Birds 的测试集视频中间帧
图像到视频(I→V) CUB-200-2011 的训练集图像 YouTube Birds 的测试集视频

3.2.2 评价指标
在本文的两种适应任务实验中,采用准确率(accuracy)作为评价指标来验证本文 UDAN 方法的有效性.准确
率的定义如下:
R
Accuracy = a (7)
R
其中,R 表示测试集中视频或者视频帧的总数,R a 表示正确分类的视频或者视频帧的数目.
3.3 实现细节
为了方便后续研究者与本文 UDAN 方法进行公平对比,本节从基础 CNN 模型、视频处理和训练细节这 3

158 159 160 161 162 163 164 165 166 167 168