Page 184 - 《软件学报》2021年第9期
P. 184
2808 Journal of Software 软件学报 Vol.32, No.9, September 2021
Table 2 Data set partition
表 2 数据集划分
传统零次学习 广义零次学习
数据集 训练样本量 测试样本量 训练样本量 测试样本量(已知类别) 测试样本量(新类别)
SUN 12 892 1 439 10 314 2 578 1 439
CUB 8 814 2 966 7 052 1 762 2 966
AWA2 29 408 7 913 23 526 5 882 7 913
实验基于 Ubuntu 16.04 操作系统及一块 GeForce GTX 1080 Ti GPU,使用 Pytorch 深度学习框架实现.对于
模型的视觉特征抽取部分,采用在 ImageNet 数据集上预训练好的 ResNet50 [37] 网络作为视觉特征抽取网络.为了
增强在不同数据集上的适应能力,在抽取特征之前,使用各数据集的训练集样本对其进行微调,以适应当前任
务.语义知识表示部分,本文选用两层图卷积神经网络完成图上的信息传递,其输入特征维度为类别的初始属性
维度,邻接矩阵为构造好的类别语义关系矩阵,中间隐层维度为超参数,输出的视觉特征维度为 d,d=2048.本文将
在第 4.8 节对图卷积神经网络的层数设置进行对比实验,借此说明将图卷积神经网络层数选择为 2 的原因.每层
网络使用概率系数为 0.5 的 Dropout 层以及批量归一化算法进行网络解耦,并加入 ReLU 激活函数进行非线性
转换,表 3 中为不同数据集下具体的图神经网络结构.模型训练过程中,网络权重使用 Xavier 方法进行初始化,
学习率初始化为 0.005.在 1 000 次迭代之后,学习率调整为 0.001,并使用 Adam 梯度下降算法进行权重更新.
Table 3 Architecture of graph neural network
表 3 图神经网络结构
网络层 SUN CUB AWA2
输入维度:717×102 输入维度:200×312 输入维度:50×85
邻接矩阵:717×717 邻接矩阵:200×200 邻接矩阵:50×50
L1
GCN,BN,ReLU GCN,BN,ReLU GCN,BN,ReLU
输出维度:717×256 输出维度:200×512 输出维度:50×128
输入维度:717×256 输入维度:200×512 输入维度:50×128
邻接矩阵:717×717 邻接矩阵:200×200 邻接矩阵:50×50
L2
GCN,BN,ReLU GCN,BN,ReLU GCN,BN,ReLU
输出维度:717×2048 输出维度:200×2048 输出维度:50×2048
输出 特征矩阵:717×2048 特征矩阵:200×2048 特征矩阵:50×2048
4.2 对比算法
为了评估本文提出方法的有效性,选取多个具代表性的经典零次学习算法以及近年提出的新算法进行比
较,各基准算法的提出时间以及主要思想见表 4.
Table 4 Baseline algorithms
表 4 基准算法
基准方法 发表时间 主要思想
DAP/IAP [38] 2009 零次学习领域开创方法,学习一组视觉空间中的属性分类器
DEVISE [39] 2013 使用预训练的词向量特征与图像视觉特征进行相似度度量
CONSE [40] 2013 组合类标签向量,将图像特征嵌入语义空间
CMT [41] 2014 提出对双线性兼容性学习框架的非线性扩展
ALE [42] 2015 提出针对给定图像,正确类排序高于不正确类的兼容性函数
SJE [43] 2015 利用多种模态的语义信息相互补充
ESZSL [44] 2015 将正则化项加入线性兼容方法中,对特征重构过程进行惩罚
SSE [45] 2015 将源数据和目标数据混合建模,属于直推式零次学习设置
LATEM [46] 2016 使用线性函数模型集合,针对不同类别自动选择最好的线性函数模型
SYNC [12] 2016 使用虚构类学习模型空间和语义类嵌入空间之间的映射
SAE [13] 2017 引入自编码器结构,加入视觉特征或语义原型的重构约束
PSR [11] 2018 在自编码器结构基础上,显式加入语义类别之间的关系约束
ZSKL [47] 2018 应用核方法学习视觉特征和属性空间之间的非线性映射
MLSE-ZSL [48] 2019 提出潜在语义编码器,该编码器利用视觉特征和潜在语义表示进行学习
SABR [49] 2019 使用生成对抗网络,学习一个既有区分度又语义相似的嵌入空间