Page 161 - 《软件学报》2021年第11期

P. 161

何相腾等:跨域和跨模态适应学习的无监督细粒度视频分类 3487

S
S
(2)中,N S 表示源域中图像数据的数量, x 和 y 分别表示源域中第 k 个图像数据及其类别标签.通过最小化
k
k
S
Loss 来学习源域图像数据的辨识性特征.
cls
2.2.2 联合辨识最大均值差异损失
Yosinski 等人的研究 [21] 表明,CNN 网络高层的迁移能力会随着域差异的增加而降低,即越高的层其迁移能
力越差.这就使得 CNN 网络的泛化能力较差,一旦迁移到另外一个域的数据上,其表现就会急剧下降.为了解决
这个问题,Long 等人 [22] 提出了一种联合最大均值差异准则(joint maximum mean discrepancy,简称 JMMD),以使
得多个网络层在跨域条件下实现联合分布对齐,其定义如下:
DP C Z S ,1:| | ( )P − C Z T ,1:|| ( ) ||Q 2 ⊗ ||L I 1 = H l (3)
(, ) ||Q
L
L
L
本文采用 CNN 网络的最后|L|层输出向量(即 (PZ 1 S ,...,Z S ||L ) 和 (QZ 1 T ,...,Z T ||L ) )来表示源域和目标域数据的分
布,它们的差异用希尔伯特空间嵌入(Hilbert space embedding)来度量.在本文 UDAN 方法中,采用 ResNet50 网路
模型的最后两层,即 L={pool5,fc},它们的输出向量表示为 Z.
考虑到在细粒度视觉分类任务中,细粒度类别之间的差异一般在对象的部件上,因此,本文提出了联合辨识
最大均值差异.JDMMD 能够充分利用图像中辨识性区域的特征,有效地分析细粒度类别之间的差异.所以,P 和
Q 重新表示为 (PR 1 S ,...,R S ||L ) 和 (QR 1 T ,...,R T ||L ) ,其中,R 表示图像中辨识性区域的特征.
为了实现 UDAN 网络模型的端到端(end-to-end)训练,本文设计了辨识性生成网络,其包含两个部分:辨识性
生成层(discrimination generation layer)和感兴趣区域对齐层(RoI align layer) [23] (如图 3 所示).

Fig.3 Architecture of the proposed discrimination generator network
图 3 本文提出的辨识性生成网络的框架

• 辨识性生成层
辨识性生成层是为了生成图像中辨识性区域的位置坐标信息,然后作为感兴趣对齐层的输入.首先,提取
ResNet50 网络模型最后一层卷积层的所有特征图,并且通过平均池化操作把它们聚合成一个特征图 F;然后,对
聚合成的特征图 F 进行上采样操作,将其尺寸变为输入图像的尺寸.特征图 F 中的每一个像素值 f i,j 表示原始图
像对应像素点(i,j)的卷积响应,它表示了原始图像对应像素点的辨识性程度.所以,基于特征图 F 可以获取图像
中的辨识性区域.
为了获得辨识性区域的位置坐标信息,本文通过大津阈值(OTSU) [24] 二值化算法和最大连通域提取算法来
实现.经过这两个操作,可以获取辨识性区域的左上角坐标(x 1 ,y 1 )和右下角坐标(x 2 ,y 2 ).然后,将两个坐标信息作
为感兴趣区域对齐层的输入.
• 感兴趣区域对齐层
感兴趣区域对齐层是为了生成图像中辨识性区域对应的特征图,采用双线性插值算法来计算对应区域的

156 157 158 159 160 161 162 163 164 165 166