Page 99 - 《软件学报》2021年第12期
P. 99

肖勇  等:基于 GAT2VEC 的 Web 服务分类方法                                                    3763


             从实验结果可以看出:
             1)   对于 Mashup 数据集的 10 分类问题,游走步长λ在 120 附近增加或减少时,分类效果有所下降;
             2)   对于 Mashup 数据集的 20~50 分类问题,Micro F1 值和 Macro F1 值随着游走步长的增加呈现出上升
                 趋势;但当λ超过 160 的时候,分类效果开始呈下降趋势.
             总体来说,最佳游走步长的数值相对来说较大,这是因为 Mashup 的服务网络图较为稀疏,需要较长距离游
         走才可以捕获到有价值的网络表征信息.
         2.6.2    API 数据集分析
             对于 API 数据集,我们选择不同游走次数γ(10,20,30,40,50)进行 API 分类实验,游走步长λ同样暂设为方法的
         默认值 80,得到的结果如图 11 所示.












                               Fig.11    Number of walk parameter analysis of API dataset
                                      图 11   API 数据集游走次数参数分析

             从实验结果可以看出:
             1)   对于 API 数据集的 10 分类、20 分类问题,随着游走次数的增加,Micro F1 值和 Macro F1 值先上升后
                 下降;当游走次数γ设置为 30 时,API 的分类效果最好;
             2)   对于 API 数据集的 30~50 分类问题,当γ设置为 40 时,分类效果达到最佳.
             接下来,我们选择不同的游走步长λ(40,80,120,160,200)进行 API 分类实验,γ设置为上述最佳值,得到的
         Micro F1 值和 Macro F1 值如图 12 所示.











                                Fig.12    Walk length parameter analysis of API dataset
                                      图 12  API 数据集游走步长参数分析
             从实验结果可以看出:(1)  对于 API 数据集的 10 分类、20 分类问题,当游走步长λ设置为 120 时,API 的分
         类效果最好;(2)  对于 API 数据集的 30~50 分类问题,Micro F1 值和 Macro F1 值随游走步长的增加先上升后下
         降,最佳的游走步长为 160.
         2.7   表征维度分析
             适当地增加表征维度的大小可以学习到更多的特征,从而得到更好的分类效果.但随着特征空间维度增加,
         整个特征空间会变得越来越稀疏;同时,分类器一旦学习了训练数据的噪声和异常,模型就会出现过拟合现象,
         大大影响分类效果.在本节中,我们设计了多组实验对本文表征学习中涉及的表征维度 d 进行参数调整,以使分
         类效果达到最好.我们选取了 5 个不同的维度(32,64,128,256,512)进行对比实验,结果如图 13、图 14 所示.
   94   95   96   97   98   99   100   101   102   103   104