Page 162 - 《软件学报》2021年第11期
P. 162

3488                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                 特征,有效避免了 RoI Pooling 的量化损失.
                    经过辨识性生成网络,可以获得源域数据和目标域数据对应的辨识性联合分布 (PR                             1 S  ,...,R S ||L  ) 和 (QR  1 T  ,...,
                 R T ||L  ) .因此,公式(1)中第 2 项 Loss JDMMD 对应的定义为
                                            Loss JDMMD    || C R  S ,1:| | ( )P −  C R T ,1:|| ( ) ||Q  2 ⊗ ||L I  1 =  H  l  (4)
                                                         L
                                                                  L
                    与 JAN 方法  [22] 一样,本文采用其相似线性时间估计来适应随机梯度下降算法 SGD,以进行端到端的网络模
                 型训练.
                 2.2.3    目标域视频数据上的分类损失
                    公式(1)中的第 3 项 Loss  T pseudo  表示 UDAN 网络模型在未标注的目标域视频数据上的分类损失.首先,本文对
                 目标域视频进行抽帧;然后,利用这些视频帧来训练 UDAN 网络模型.其定义如下:
                                                         1  N T
                                                                  T
                                                Loss T pseudo  =  ∑ ce (( f x y T k  ))               (5)
                                                                   ,
                                                                  k
                                                        N T  k = 1
                          S
                    与 Loss 一样,本文采用交叉熵损失函数来优化本文 UDAN 方法在目标域视频数据上的学习.其中,N T 表示
                          cls
                                         T
                                     T
                 目标域中视频帧的数量, x 和 y 分别表示目标域中第 k 个视频帧及其类别伪标签.伪标签的获取将在下一节中
                                         k
                                     k
                 介绍.
                 2.3   渐进式伪标签策略
                    如果能够直接从目标域的视频数据中学习,本文 UDAN 方法将会取得更好的细粒度分类效果.在无监督条
                 件下,目标域视频数据的标注信息不能使用,然而在源域图像数据上训练得到的 UDAN 网络模型能够较为准确
                 地对目标域的部分视频帧进行分类.因此,本文提出了一种渐进式伪标签策略,能够有效地给目标域的部分视频
                 帧打标签,从而利用这些带有伪标签信息的视频帧数据对 UDAN 网络模型进行微调(fine-tune).对于目标域的视
                 频帧,需要满足下列条件才能获取伪标签:
                                                   max(softmax (x T K  )) τ>                          (6)
                    为了使得所选择的目标域视频帧具有较高的置信度,本文将τ设置为 0.99.通过利用带有伪标签的视频帧数
                 据进行 UDAN 的训练,UDAN 能够直接学习到目标域视频数据的特定知识.进一步,再次利用训练后的 UDAN
                 执行伪标签操作,会获得更多的视频帧数据以作训练之用.通过这样一种渐进式的迭代过程,UDAN 能够进一步
                 提升细粒度分类能力.
                 3    实   验

                    在实验部分,为了验证本文 UDAN 方法的有效性,本文将 CUB-200-2011 数据集                  [25] 、Cars-196 数据集 [26] 作
                                                 [1]
                                                                     [1]
                 为源域图像数据集,YouTube Birds 数据集 、YouTube Cars 数据集 作为目标域视频数据集,旨在将知识从图像
                 迁移到视频.
                 3.1   数据集介绍
                    CUB-200-2011、Cars-196、YouTube Birds 和 YouTube Cars 这 4 个细粒度数据集的划分见表 1,分别包含了
                 训练集和测试集,其具体介绍如下.
                    (1)  CUB-200-2011 数据集 [25] 是使用最为广泛的细粒度图像数据集,共包含 11 788 张图像,涵盖了 200 个
                        鸟类的细粒度子类别,如小白额燕鸥、普通燕鸥和福斯特燕鸥等.其数据划分如下:训练集包含 5 994
                        张图像,测试集包含 5 794 张图像.每一张图像都有详细的标注信息,包括图像级的类别标签、图像中
                        对象的位置标注信息、15 个部件的位置标注信息以及 312 个二值属性标注信息.在本文实验中,仅使
                        用了图像级的类别标签信息.
                    (2)  Cars-196 数据集 [26] 共包含 16 185 张图像,涵盖了 196 个车类的细粒度子类别,如现代伊兰特 2007、丰
                        田红杉 SUV 2012 等.其数据集划分如下:训练集包含 8 144 张图像,测试集包含 8 041 张图像.每一张
   157   158   159   160   161   162   163   164   165   166   167