Page 163 - 《软件学报》2021年第11期
P. 163

何相腾  等:跨域和跨模态适应学习的无监督细粒度视频分类                                                    3489


                        图像有两种标注信息:1 个图像级的类别标签和 1 个图像中对象级的位置标注信息.
                                          [1]
                    (3)  YouTube Birds 数据集 是新近构建的大规模细粒度鸟类视频数据集,共包含 18 350 个视频.与 CUB-
                        200-2011 数据集相同,涵盖了 200 个鸟类的细粒度子类别,而且二者的子类别种类完全相同.视频数据
                        来源于 YouTube 视频网站用户上传的真实视频,每个视频时长不超过 5 分钟.数据集的划分如下:训练
                        集包含 12 666 个视频,测试集包含 5 684 个视频.每个视频仅有一个视频级的类别标签信息.为了验证
                        无监督细粒度视频分类的可行性和有效性,在本文的实验中没有使用视频的标注信息.
                                          [1]
                    (4)  YouTube Cars 数据集 同样是新近构建的大规模细粒度车类视频数据集,共包含 15 220 个视频.与
                        Cars-196 数据集相同,涵盖了 196 个车类的细粒度子类别,而且二者的子类别种类完全相同.数据集的
                        划分如下:训练集包含 10 259 个视频,测试集包含 4 961 个视频.每个视频仅有 1 个视频级的类别标签
                        信息.为了验证无监督细粒度视频分类的可行性和有效性,本文的实验中没有使用视频的标注信息.
                                        Table 1    Data partitions on four fine-grained datasets
                                              表 1  4 个细粒度数据集的数据划分
                                            数据集            训练集           测试集
                                          CUB-200-2011   5 994 张图像     5 794 张图像
                                            Cars-196     8 144 张图像     8 041 张图像
                                          YouTube Birds   12 666 个视频   5 684 个视频
                                          YouTube Cars   10 259 个视频    4 961 个视频

                 3.2   评价任务和指标
                 3.2.1    评价任务
                    为了评价本文 UDAN 方法的有效性,本文设计了两种适应任务,分别是图像到视频帧的适应任务以及图像
                 到视频的适应任务.以 CUB-200-2011 和 YouTube Birds 两个数据集为例,见表 2.
                    (1)  图像到视频帧的适应任务(I→F):本文将 CUB-200-2011 数据集的训练图片作为源域数据,将 YouTube
                        Birds 数据集的测试视频作为目标域数据.对于 YouTube Birds 数据集的视频,本文抽取中间帧作为目
                        标域测试视频帧.
                    (2)  图像到视频的适应任务(I→V):本文将 CUB-200-2011 数据集的训练图片作为源域数据,将 YouTube
                        Birds 数据集的测试视频作为目标域数据.
                    需要注意的是:在训练过程中使用的是标注的 CUB-200-2011 数据集的训练图片和未标注的 YouTube Birds
                 数据集的训练视频,在测试过程中使用的是 YouTube Birds 数据集的测试视频.
                                             Table 2    Two types of adaptation tasks
                                                    表 2   两种适应任务
                                适应任务                源域数据                     目标域数据
                            图像到视频帧(I→F)       CUB-200-2011 的训练集图像    YouTube  Birds 的测试集视频中间帧
                             图像到视频(I→V)       CUB-200-2011 的训练集图像      YouTube  Birds 的测试集视频

                 3.2.2    评价指标
                    在本文的两种适应任务实验中,采用准确率(accuracy)作为评价指标来验证本文 UDAN 方法的有效性.准确
                 率的定义如下:
                                                               R
                                                      Accuracy =  a                                   (7)
                                                               R
                 其中,R 表示测试集中视频或者视频帧的总数,R a 表示正确分类的视频或者视频帧的数目.
                 3.3   实现细节
                    为了方便后续研究者与本文 UDAN 方法进行公平对比,本节从基础 CNN 模型、视频处理和训练细节这 3
   158   159   160   161   162   163   164   165   166   167   168