Page 166 - 《软件学报》2021年第11期
P. 166
3492 Journal of Software 软件学报 Vol.32, No.11, November 2021
源域图像训练数据和目标域的视频数据,细粒度视频分类准确率仅有 60.7%,只比本文 UDAN 的无监
督方法高 2.4%.这充分验证了本文 UDAN 方法在无监督细粒度视频分类上的有效性.
(2) 与现有适应方法的对比.本文的 UDAN 方法与现有的适应方法进行了对比,如联合适应网络(joint
adaptation network,简称 JAN) [22] 、增量式的协同对抗网络(incremental collaborative and adverarial
network,简称 ICAN) [27] 和最大分类差异(maximum classifier discrepancy,简称 MCD) [28] .JAN 基于联合
最大均值差异,对多个网络层进行跨域的分布对齐.这是本文 UDAN 方法的基础结构.本文并没有采
用从头训练的方式,而是利用在 CUB-200-2011 训练集上预训练的 RestNet50 网络模型对 JAN 方法进
行初始化,然后在此基础上进行训练.这有效提升了模型的细粒度分类效果.相比 JAN 方法,本文的
UDAN 方法取得了较大的提升,在 I→V 适应任务上,将细粒度分类准确率从 46.4%提升到 58.3%.
ICAN 方法在 CNN 特征提取中采用了多个域分类器(domain classifier)以学习与域相关和不相关的特
征.相比 ICAN 方法,本文 UDAN 方法的细粒度分类准确率取得了 16.0%的提升.这主要是因为本文的
UDAN 方法中提出的联合辨识最大均值差异(JDMMD)准则能够有效地将辨识定位能力从图像数据
迁移到视频数据.
(3) 与现有的有监督的视频分类方法的对比.本文也与膨胀三维卷积(inflated 3D ConvNet,简称 I3D)方法
进行了对比.I3D 将二维的卷积层膨胀为三维的卷积层,首先利用二维的卷积层进行初始化,之后再利
用视频数据进行训练.从表 4 的结果可以看到,即使使用了标注的目标域的视频训练数据,I3D 方法的
细粒度视频分类准确率依然比本文 UDAN 方法低,这验证了本文 UDAN 方法能够有效地将知识从标
注的图像数据迁移到未标注的视频数据.
Fig.4 Variation of distribution of target video data, from ResNet50 model to our UDAN
approach on CUB-200-2011 and YouTube Birds datasets
图 4 在 CUB-200-2011 和 YouTube Birds 数据集上从 ResNet50 模型
到本文 UDAN 方法,目标视频的数据分布变化
从上述 3 个方面的分析对比,本文 UDAN 方法的有效性得到了验证.从 Cars-196 到 YouTube Car 上两种适
应任务的结果如表 5 所示.本文的 UDAN 方法与基础网络模型、现有适应方法、现有有监督视频分类方法的
对比趋势,与从 CUB-200-2011 到 YouTube Birds 上两种适应任务的结果一致.这进一步验证了本文 UDAN 方法
在适应任务上的有效性.在下一节中,通过剥离实验进一步验证其有效性.
3.5.2 剥离实验
在本节中,通过剥离实验验证本文 UDAN 方法每个组成部分的效果,以及在渐进式伪标签策略中迭代次数
对于细粒度分类效果的影响.