Page 188 - 《软件学报》2021年第9期
P. 188
2812 Journal of Software 软件学报 Vol.32, No.9, September 2021
实验结果表明:对于 CUB 和 SUN 数据集而言,GCN 层数过少导致知识不能很好地通过图来传播(1 层 GCN
就只能利用它的邻接节点);而随着 GCN 层数增加,图中节点之间传递消息的次数增加,可能会导致较远节点产
生的知识稀释问题;同时,模型参数量随之增加,容易造成过拟合,提升了训练难度.而在 AWA2 数据集上,一层 GC
Layer 效果比较好.原因可能是 AWA2 的语义特征矩阵的类别维度和属性维度都最小(50×85),随着 GCN 层数增
加,节点包含的语义信息会被迅速稀释;此外,AWA2 是唯一的粗粒度数据集,类间差异相对较大,GCN 层数增加
也可能导致原本差异明显的类别变得相似.
4.8 收敛速度实验分析
图 5 是损失函数收敛曲线.横坐标代表训练迭代次数,纵坐标代表损失函数值.从图中可以看出:随着训练的
进行,损失函数值迅速降低并收敛.在迭代 500 次时,AWA2,CUB,SUN 这 3 个数据集上的测试分类准确率分别为
64.8%、63.8%和 67.8%,均达到近似最优的测试分类准确率.经分析,本模型中需要学习的参数只涉及语义知识
表示模块中的图神经网络,参数量较少,降低了模型收敛难度,这也是本文方法在各数据集上表现出强泛化能力
的主要原因.
Fig.5 Convergence curve of loss value
图 5 损失函数收敛曲线
4.9 模型误分类图像分析
为了进一步检验算法的有效性,对 AWA2 数据集中被模型误分类的部分样本进行检查.如图 6 所示,左侧一
列是能够被正确分类的图片,右侧三列是一些误分类的图片.
Fig.6 Misclassified images
图 6 误分类图像