Page 165 - 《软件学报》2021年第11期
P. 165
何相腾 等:跨域和跨模态适应学习的无监督细粒度视频分类 3491
(2) I→V:同上述一样的训练方式,对 YouTube Birds 测试集中的视频进行测试.相比仅使用 CUB-200-2011
训练集图像数据准确率提升了 19.9%.
从上述分析可以看出,源域与目标域数据之间存在巨大的差异,I→F 和 I→F 这两种适应任务是非常具有挑
战性的.此外,即使使用了 YouTube Birds 训练集的数据,细粒度分类效果依旧不理想,这说明了对用户上传的视
频数据进行细粒度分类同样是一个非常具有挑战性的任务.
3.5 无监督细粒度视频分类
本节通过无监督细粒度视频分类任务来验证本文 UDAN 方法的有效性,将知识从标注的图像数据迁移到
未标注的视频数据.本文将目标域的视频数据划分为两种模态:视频帧(每个视频的中间帧)及视频.同样地,执行
两种适应任务:I→F 和 I→V.本节从以下两个方面对实验结果进行分析比较:(1) 与现有方法对比;(2) 剥离实验.
3.5.1 与现有方法对比
本节将本文 UDAN 方法与现有先进(state-of-the-art)方法进行了对比,并给出了详细的分析.为了公平对比,
本文 UDAN 方法与对比方法在 I→F 和 I→V 这两种适应任务中均采用相同的实验设置.表 4、表 5 分别展示了
从 CUB-200-2011 到 YouTube Birds 和从 Cars-196 到 YouTube Car 两组数据集上的结果.
Table 4 Results on two types of adaptation tasks: Image-to-frame adaptation (I→F), and image-to-video
adaptation (I→V) on CUB-200-2011 and YouTube Birds datasets
表 4 CUB-200-2011 和 YouTube Birds 两个数据集上 I→F 和 I→V 两种适应任务上的结果
准确率(%)
对比方法
I→F I→V
本文 UDAN 方法 42.5 58.3
JAN [22] 36.5 46.4
ResNet50 [20] 34.2 40.7
ICAN [27] 32.9 42.3
MCD [28] 30.1 43.9
I3D [29] − 40.7
Table 5 Results on two types of adaptation tasks: image-to-frame adaptation (I→F), and image-to-video
adaptation (I→V) on Cars-196 and YouTube Cars datasets
表 5 Cars-196 和 YouTube Cars 两个数据集上 I→F 和 I→V 两种适应任务上的结果
准确率(%)
对比方法
I→F I→V
本文 UDAN 方法 15.3 44.6
JAN [22] 10.4 15.5
ResNet50 [20] 14.3 30.4
ICAN [27] 10.9 28.0
I3D [29] − 40.9
表 4 展示了从 CUB-200-2011 到 YouTube Birds 上两种适应任务的结果,验证了本文 UDAN 方法的有效性,
表明其在两种适应任务上都取得了最好的细粒度分类效果,与现有最好的方法相比分别提升了 6%和 11.9%.由
于 I→F 和 I→V 这两种适应任务上的趋势一致,本节以 I→V 适应任务为例,从以下 3 个方面给出具体的分析
比较.
(1) 与基础网络模型的对比.在实验中,本文 UDAN 方法采用 ResNet50 网络模型 [20] 作为基础 CNN 模型,
因此首先与 ResNet50 网络模型的结果进行对比.直接利用 ResNet50 网络模型,在两种适应任务上,细
粒度分类效果均比较差.在 I→V 适应任务上只有 40.7%的准确率.而本文 UDAN 方法可以将细粒度分
类准确率提升 17.6%,这表明其具有缩短域差异和模态差异的能力.图 4 展示了在 CUB-200-2011 和
YouTube Birds 两个数据集上从 ResNet50 网络模型到本文 UDAN 方法,目标域视频的数据分布变化.
从图 4 可以看出,本文的 UDAN 方法能够有效地将细粒度类别的数据区分开,而 ResNet50 网络模型
下相同类别的数据相对分散而不够紧凑.进一步地,从表 3 中的结果可以看出,即使同时使用了标注的