Page 184 - 《软件学报》2021年第9期
P. 184

2808                                 Journal of Software  软件学报 Vol.32, No.9,  September 2021

                                           Table 2  Data set partition
                                              表 2   数据集划分
                              传统零次学习                          广义零次学习
                   数据集    训练样本量     测试样本量     训练样本量     测试样本量(已知类别)      测试样本量(新类别)
                    SUN     12 892    1 439     10 314        2 578           1 439
                    CUB     8 814     2 966     7 052         1 762           2 966
                    AWA2    29 408    7 913     23 526        5 882           7 913

             实验基于 Ubuntu 16.04 操作系统及一块 GeForce GTX 1080 Ti GPU,使用 Pytorch 深度学习框架实现.对于
         模型的视觉特征抽取部分,采用在 ImageNet 数据集上预训练好的 ResNet50                [37] 网络作为视觉特征抽取网络.为了
         增强在不同数据集上的适应能力,在抽取特征之前,使用各数据集的训练集样本对其进行微调,以适应当前任
         务.语义知识表示部分,本文选用两层图卷积神经网络完成图上的信息传递,其输入特征维度为类别的初始属性
         维度,邻接矩阵为构造好的类别语义关系矩阵,中间隐层维度为超参数,输出的视觉特征维度为 d,d=2048.本文将
         在第 4.8 节对图卷积神经网络的层数设置进行对比实验,借此说明将图卷积神经网络层数选择为 2 的原因.每层
         网络使用概率系数为 0.5 的 Dropout 层以及批量归一化算法进行网络解耦,并加入 ReLU 激活函数进行非线性
         转换,表 3 中为不同数据集下具体的图神经网络结构.模型训练过程中,网络权重使用 Xavier 方法进行初始化,
         学习率初始化为 0.005.在 1 000 次迭代之后,学习率调整为 0.001,并使用 Adam 梯度下降算法进行权重更新.
                                   Table 3    Architecture of graph neural network
                                            表 3   图神经网络结构
                            网络层         SUN            CUB            AWA2
                                    输入维度:717×102   输入维度:200×312   输入维度:50×85
                                    邻接矩阵:717×717   邻接矩阵:200×200   邻接矩阵:50×50
                              L1
                                     GCN,BN,ReLU    GCN,BN,ReLU    GCN,BN,ReLU
                                    输出维度:717×256   输出维度:200×512   输出维度:50×128
                                    输入维度:717×256   输入维度:200×512   输入维度:50×128
                                    邻接矩阵:717×717   邻接矩阵:200×200   邻接矩阵:50×50
                              L2
                                     GCN,BN,ReLU    GCN,BN,ReLU    GCN,BN,ReLU
                                   输出维度:717×2048   输出维度:200×2048  输出维度:50×2048
                             输出    特征矩阵:717×2048   特征矩阵:200×2048  特征矩阵:50×2048

         4.2   对比算法
             为了评估本文提出方法的有效性,选取多个具代表性的经典零次学习算法以及近年提出的新算法进行比
         较,各基准算法的提出时间以及主要思想见表 4.
                                          Table 4   Baseline algorithms
                                               表 4   基准算法
                     基准方法      发表时间                         主要思想
                    DAP/IAP [38]  2009     零次学习领域开创方法,学习一组视觉空间中的属性分类器
                     DEVISE [39]  2013      使用预训练的词向量特征与图像视觉特征进行相似度度量
                     CONSE [40]  2013            组合类标签向量,将图像特征嵌入语义空间
                      CMT [41]   2014           提出对双线性兼容性学习框架的非线性扩展
                      ALE [42]   2015      提出针对给定图像,正确类排序高于不正确类的兼容性函数
                      SJE [43]   2015              利用多种模态的语义信息相互补充
                     ESZSL [44]  2015      将正则化项加入线性兼容方法中,对特征重构过程进行惩罚
                      SSE [45]   2015       将源数据和目标数据混合建模,属于直推式零次学习设置
                     LATEM [46]  2016   使用线性函数模型集合,针对不同类别自动选择最好的线性函数模型
                     SYNC [12]   2016       使用虚构类学习模型空间和语义类嵌入空间之间的映射
                      SAE [13]   2017       引入自编码器结构,加入视觉特征或语义原型的重构约束
                      PSR [11]   2018      在自编码器结构基础上,显式加入语义类别之间的关系约束
                     ZSKL  [47]  2018       应用核方法学习视觉特征和属性空间之间的非线性映射
                    MLSE-ZSL [48]  2019   提出潜在语义编码器,该编码器利用视觉特征和潜在语义表示进行学习
                     SABR [49]   2019     使用生成对抗网络,学习一个既有区分度又语义相似的嵌入空间
   179   180   181   182   183   184   185   186   187   188   189