Page 161 - 《软件学报》2021年第11期
P. 161

何相腾  等:跨域和跨模态适应学习的无监督细粒度视频分类                                                    3487


                                                     S
                                                 S
                 (2)中,N S 表示源域中图像数据的数量, x 和 y 分别表示源域中第 k 个图像数据及其类别标签.通过最小化
                                                 k
                                                     k
                    S
                 Loss 来学习源域图像数据的辨识性特征.
                    cls
                 2.2.2    联合辨识最大均值差异损失
                    Yosinski 等人的研究   [21] 表明,CNN 网络高层的迁移能力会随着域差异的增加而降低,即越高的层其迁移能
                 力越差.这就使得 CNN 网络的泛化能力较差,一旦迁移到另外一个域的数据上,其表现就会急剧下降.为了解决
                 这个问题,Long 等人    [22] 提出了一种联合最大均值差异准则(joint maximum mean discrepancy,简称 JMMD),以使
                 得多个网络层在跨域条件下实现联合分布对齐,其定义如下:
                                            DP       C Z  S ,1:| | ( )P − C Z T ,1:|| ( ) ||Q  2 ⊗ ||L I  1 =  H l  (3)
                                               (, ) ||Q
                                              L
                                                                 L
                                                         L
                    本文采用 CNN 网络的最后|L|层输出向量(即 (PZ           1 S  ,...,Z S ||L  ) 和 (QZ  1 T  ,...,Z T ||L  ) )来表示源域和目标域数据的分
                 布,它们的差异用希尔伯特空间嵌入(Hilbert space embedding)来度量.在本文 UDAN 方法中,采用 ResNet50 网路
                 模型的最后两层,即 L={pool5,fc},它们的输出向量表示为 Z.
                    考虑到在细粒度视觉分类任务中,细粒度类别之间的差异一般在对象的部件上,因此,本文提出了联合辨识
                 最大均值差异.JDMMD 能够充分利用图像中辨识性区域的特征,有效地分析细粒度类别之间的差异.所以,P 和
                 Q 重新表示为 (PR    1 S  ,...,R S ||L  ) 和 (QR  1 T  ,...,R T ||L  ) ,其中,R 表示图像中辨识性区域的特征.
                    为了实现 UDAN 网络模型的端到端(end-to-end)训练,本文设计了辨识性生成网络,其包含两个部分:辨识性
                 生成层(discrimination generation layer)和感兴趣区域对齐层(RoI align layer) [23] (如图 3 所示).



















                                  Fig.3    Architecture of the proposed discrimination generator network
                                            图 3   本文提出的辨识性生成网络的框架

                    •   辨识性生成层
                    辨识性生成层是为了生成图像中辨识性区域的位置坐标信息,然后作为感兴趣对齐层的输入.首先,提取
                 ResNet50 网络模型最后一层卷积层的所有特征图,并且通过平均池化操作把它们聚合成一个特征图 F;然后,对
                 聚合成的特征图 F 进行上采样操作,将其尺寸变为输入图像的尺寸.特征图 F 中的每一个像素值 f i,j 表示原始图
                 像对应像素点(i,j)的卷积响应,它表示了原始图像对应像素点的辨识性程度.所以,基于特征图 F 可以获取图像
                 中的辨识性区域.
                    为了获得辨识性区域的位置坐标信息,本文通过大津阈值(OTSU)                     [24] 二值化算法和最大连通域提取算法来
                 实现.经过这两个操作,可以获取辨识性区域的左上角坐标(x 1 ,y 1 )和右下角坐标(x 2 ,y 2 ).然后,将两个坐标信息作
                 为感兴趣区域对齐层的输入.
                    •   感兴趣区域对齐层
                    感兴趣区域对齐层是为了生成图像中辨识性区域对应的特征图,采用双线性插值算法来计算对应区域的
   156   157   158   159   160   161   162   163   164   165   166