Page 165 - 《软件学报》2021年第11期
P. 165

何相腾  等:跨域和跨模态适应学习的无监督细粒度视频分类                                                    3491


                    (2)  I→V:同上述一样的训练方式,对 YouTube Birds 测试集中的视频进行测试.相比仅使用 CUB-200-2011
                        训练集图像数据准确率提升了 19.9%.
                    从上述分析可以看出,源域与目标域数据之间存在巨大的差异,I→F 和 I→F 这两种适应任务是非常具有挑
                 战性的.此外,即使使用了 YouTube Birds 训练集的数据,细粒度分类效果依旧不理想,这说明了对用户上传的视
                 频数据进行细粒度分类同样是一个非常具有挑战性的任务.
                 3.5   无监督细粒度视频分类
                    本节通过无监督细粒度视频分类任务来验证本文 UDAN 方法的有效性,将知识从标注的图像数据迁移到
                 未标注的视频数据.本文将目标域的视频数据划分为两种模态:视频帧(每个视频的中间帧)及视频.同样地,执行
                 两种适应任务:I→F 和 I→V.本节从以下两个方面对实验结果进行分析比较:(1)  与现有方法对比;(2)  剥离实验.
                 3.5.1    与现有方法对比
                    本节将本文 UDAN 方法与现有先进(state-of-the-art)方法进行了对比,并给出了详细的分析.为了公平对比,
                 本文 UDAN 方法与对比方法在 I→F 和 I→V 这两种适应任务中均采用相同的实验设置.表 4、表 5 分别展示了
                 从 CUB-200-2011 到 YouTube Birds 和从 Cars-196 到 YouTube Car 两组数据集上的结果.

                    Table 4    Results on two types of adaptation tasks: Image-to-frame adaptation (I→F), and image-to-video
                                    adaptation (I→V) on CUB-200-2011 and YouTube Birds datasets
                        表 4   CUB-200-2011 和 YouTube Birds 两个数据集上 I→F 和 I→V 两种适应任务上的结果
                                                                         准确率(%)
                                 对比方法
                                                               I→F                      I→V
                              本文 UDAN 方法                       42.5                     58.3
                                 JAN [22]                      36.5                     46.4
                                ResNet50 [20]                  34.2                     40.7
                                 ICAN [27]                     32.9                     42.3
                                 MCD [28]                      30.1                     43.9
                                  I3D [29]                      −                       40.7

                     Table 5    Results on two types of adaptation tasks: image-to-frame adaptation (I→F), and image-to-video
                                       adaptation (I→V) on Cars-196 and YouTube Cars datasets
                           表 5   Cars-196 和 YouTube Cars 两个数据集上 I→F 和 I→V 两种适应任务上的结果
                                                                         准确率(%)
                                 对比方法
                                                               I→F                      I→V
                              本文 UDAN 方法                       15.3                     44.6
                                 JAN [22]                      10.4                     15.5
                                ResNet50 [20]                  14.3                     30.4
                                 ICAN [27]                     10.9                     28.0
                                  I3D [29]                      −                       40.9
                    表 4 展示了从 CUB-200-2011 到 YouTube Birds 上两种适应任务的结果,验证了本文 UDAN 方法的有效性,
                 表明其在两种适应任务上都取得了最好的细粒度分类效果,与现有最好的方法相比分别提升了 6%和 11.9%.由
                 于 I→F 和 I→V 这两种适应任务上的趋势一致,本节以 I→V 适应任务为例,从以下 3 个方面给出具体的分析
                 比较.
                    (1)  与基础网络模型的对比.在实验中,本文 UDAN 方法采用 ResNet50 网络模型                  [20] 作为基础 CNN 模型,
                        因此首先与 ResNet50 网络模型的结果进行对比.直接利用 ResNet50 网络模型,在两种适应任务上,细
                        粒度分类效果均比较差.在 I→V 适应任务上只有 40.7%的准确率.而本文 UDAN 方法可以将细粒度分
                        类准确率提升 17.6%,这表明其具有缩短域差异和模态差异的能力.图 4 展示了在 CUB-200-2011 和
                        YouTube Birds 两个数据集上从 ResNet50 网络模型到本文 UDAN 方法,目标域视频的数据分布变化.
                        从图 4 可以看出,本文的 UDAN 方法能够有效地将细粒度类别的数据区分开,而 ResNet50 网络模型
                        下相同类别的数据相对分散而不够紧凑.进一步地,从表 3 中的结果可以看出,即使同时使用了标注的
   160   161   162   163   164   165   166   167   168   169   170