Page 164 - 《软件学报》2021年第11期
P. 164

3490                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                 个方面对本文 UDAN 方法的实现细节进行介绍.
                    (1)  基础 CNN 模型:本文采用 ResNet50 网络模型        [20] 作为基础 CNN 模型.为了获得更好的细粒度视频分
                        类准确率,本文在 ResNet50 网络模型的基础上作了一些改动.具体地,将输入图片的裁剪尺寸(crop
                        size)设置为 448×448,在最后一层卷积层后面加一个平均池化层(average pooling layer),其内核尺寸为
                        14,步长为 1.
                    (2)  视频处理:对于 YouTube Birds 和 YouTube Cars 这 2 个视频数据集,本文实验部分仅对其 RGB 视频帧
                        进行分析处理.具体地,在图像到视频帧和图像到视频的适应任务中,对于每个训练视频,本文等间隔
                        地抽取 5 帧作为训练视频帧数据.在测试过程中,两个适应任务的设置有所不同:对于图像到视频帧适
                        应任务,本文抽取测试视频的中间帧作为测试数据;对于图像到视频适应任务,本文对每个测试视频
                        等间隔地抽取 25 帧作为测试数据.
                    (3)  训练细节:为了获得最好的细粒度视频分类效果,在训练过程中,本文采用了两次迭代来进行伪标签
                        的生成.对于伪标签生成的阈值τ,本文设置为 0.99 和 0.9.在本文 UDAN 网络模型的训练过程中,采用
                        梯度下降算法 SGD 进行优化,设置批尺寸(batch size)大小为 8,权值衰减系数(weight decay)为 0.0005,
                        冲量系数(momentum)为 0.9.本文设置初始学习率(learning rate)为 1e-5,每训练 6 个 epoch 学习率以 0.5
                        的系数减小.
                 3.4   源域数据与目标域数据之间的差异
                    本节展示了源域数据与目标域数据之间的差异,以 CUB-200-2011 和 YouTube Birds 两个数据集为例.与文
                 献[18]一样,首先利用源域数据对模型进行训练,然后将训练好的模型迁移到目标域进行测试.为了充分验证源
                 域与目标域之间的差异,本文执行了两种适应任务:图像到视频帧适应任务(I→F)和图像到视频适应任务(I→V).
                 结果见表 3(其中两个数据集分别用 S 和 T 表示),其中,源域和目标域分别表示为 S 和 T.
                            Table 3    Results of adaptation between CUB-200-2011 and YouTube-Birds datasets
                                 表 3   从 CUB-200-2011 数据集到 YouTube Birds 数据集的适应结果
                                         数据集                              准确率(%)
                                 训练集              测试集               I→I/F            I→V
                                   S                S               85.2              −
                                   S                T               34.2             40.7
                                  S+T               T               44.4             60.6

                    首先,本文利用标注的 CUB-200-2011 数据集的训练图像训练 ResNet50 网络模型;然后,在 CUB-200-2011
                 数据集的测试图像上验证 ResNet50 网络模型的细粒度分类效果.如表 3 所示,ResNet50 网络模型能够取得不错
                 的细粒度分类效果,即 85.2%的准确率.
                    然后,本文验证了 I→F 和 I→V 两种适应任务下,ResNet50 网络模型的适应能力.
                    (1)  I→F:直接利用在 CUB-200-2011 训练集图像数据上学习到的 ResNet50 网络模型进行 YouTube Birds
                        测试集中视频中间帧的测试,细粒度分类准确率出现了断崖式的下降,从 85.2%下降到 34.2%.
                    (2)  I→V:同样,直接利用在 CUB-200-2011 训练集图像数据上学习到的 ResNet50 网络模型进行 YouTube
                        Birds 测试集中视频的测试,细粒度分类准确率同样下降严重,只取得了 40.7%的准确率.相比 I→F 任
                        务取得了较高的细粒度分类准确率,这是因为视频相比单一视频中间帧包含更多、更丰富、更有用
                        的信息.
                    最后,本文验证了额外使用 YouTube Birds 训练集数据对于 I→F 和 I→V 两种适应任务的影响.
                    (1)  I→F:同时利用 CUB-200-2011 训练集图像数据和 YouTube Birds 训练集的视频帧来训练 ResNet50 网
                        络模型,对 YouTube Birds 测试集中的视频中间帧进行测试.细粒度分类准确率为 44.4%,相比仅使用
                        CUB-200-2011 训练集图像数据准确率提升了 10.2%.这充分体现了源域(即 CUB-200-2011 数据集)与
                        目标域数据(即 YouTube Birds 数据集)之间的巨大差异.
   159   160   161   162   163   164   165   166   167   168   169