Page 99 - 《软件学报》2021年第12期
P. 99
肖勇 等:基于 GAT2VEC 的 Web 服务分类方法 3763
从实验结果可以看出:
1) 对于 Mashup 数据集的 10 分类问题,游走步长λ在 120 附近增加或减少时,分类效果有所下降;
2) 对于 Mashup 数据集的 20~50 分类问题,Micro F1 值和 Macro F1 值随着游走步长的增加呈现出上升
趋势;但当λ超过 160 的时候,分类效果开始呈下降趋势.
总体来说,最佳游走步长的数值相对来说较大,这是因为 Mashup 的服务网络图较为稀疏,需要较长距离游
走才可以捕获到有价值的网络表征信息.
2.6.2 API 数据集分析
对于 API 数据集,我们选择不同游走次数γ(10,20,30,40,50)进行 API 分类实验,游走步长λ同样暂设为方法的
默认值 80,得到的结果如图 11 所示.
Fig.11 Number of walk parameter analysis of API dataset
图 11 API 数据集游走次数参数分析
从实验结果可以看出:
1) 对于 API 数据集的 10 分类、20 分类问题,随着游走次数的增加,Micro F1 值和 Macro F1 值先上升后
下降;当游走次数γ设置为 30 时,API 的分类效果最好;
2) 对于 API 数据集的 30~50 分类问题,当γ设置为 40 时,分类效果达到最佳.
接下来,我们选择不同的游走步长λ(40,80,120,160,200)进行 API 分类实验,γ设置为上述最佳值,得到的
Micro F1 值和 Macro F1 值如图 12 所示.
Fig.12 Walk length parameter analysis of API dataset
图 12 API 数据集游走步长参数分析
从实验结果可以看出:(1) 对于 API 数据集的 10 分类、20 分类问题,当游走步长λ设置为 120 时,API 的分
类效果最好;(2) 对于 API 数据集的 30~50 分类问题,Micro F1 值和 Macro F1 值随游走步长的增加先上升后下
降,最佳的游走步长为 160.
2.7 表征维度分析
适当地增加表征维度的大小可以学习到更多的特征,从而得到更好的分类效果.但随着特征空间维度增加,
整个特征空间会变得越来越稀疏;同时,分类器一旦学习了训练数据的噪声和异常,模型就会出现过拟合现象,
大大影响分类效果.在本节中,我们设计了多组实验对本文表征学习中涉及的表征维度 d 进行参数调整,以使分
类效果达到最好.我们选取了 5 个不同的维度(32,64,128,256,512)进行对比实验,结果如图 13、图 14 所示.