Page 98 - 《软件学报》2021年第12期
P. 98

3762                                Journal of Software  软件学报 Vol.32, No.12, December 2021

             具体来说:
             (1)  整体而言,无论是 Mashup 数据集还是 API 数据集,随着结构属性所占权重的提升,分类效果在不断上
                 升;但是当权重超过 0.6 或 0.7 左右时,分类效果开始下降.这说明对于 Mashup 和 API 的 Web 服务分
                 类来说,结构信息在一定程度上来说确实比属性信息更重要.另外,对于当权重超过一定阈值以后,分
                 类效果会出现下降的情况,其可能的原因是权重设置的越高,属性信息就会相对减少,整体的数据集
                 信息也会随之减少,从而影响分类效果;
             (2)  总的来说,数据集所取分类的类别数越多,其分类效果受结构信息与属性信息权重的影响越大,其可
                 能原因是:1)  分类类别越多,数据集就越大且越复杂,更容易受到结构信息与属性信息的影响;2)  分类
                 是按照每个类别包含的 Mashup 或 API 的数量进行排名的,而排名靠后的类别由于所包含的 Mashup
                 或 API 数量的减少,其拥有的结构调用信息相对来说就会减少,从而影响分类效果.
         2.6   γ和λ参数分析
             在向量表征模型中,增加游走次数或游走步长可以收集更多的上下文信息,从而学习更精确的表示.但是过
         多的游走次数和较大的游走步长都不合适,因为容易产生噪声数据,从而导致较差的网络表示.在本文中,我们
         针对不同随机游走次数γ和游走步长λ下的 Mashup 和 API 分类进行实验比较,以确定最佳分类效果下的参数值.
         2.6.1    Mashup 数据集分析
             首先,选择不同游走次数γ(10,20,30,40,50)进行 Mashup 分类实验,游走步长λ暂设为方法的默认值 80,得到
         的 Micro F1 值和 Macro F1 值如图 9 所示.












                              Fig.9    Number of walk parameter analysis of Mashup dataset
                                     图 9   Mashup 数据集游走次数参数分析

             从实验结果可以看出:
             1)   对于 Mashup 数据集的 10 分类问题,当游走次数γ设置为 30 时,Mashup 数据集的分类效果最好;
             2)   对于 Mashup 数据集的 20~50 分类问题,随着游走次数的增加,Micro F1 值和 Macro F1 值也逐渐增加;
                 但当γ超过 40 的时候,分类效果开始下降.
             其次,我们选择不同的游走步长λ(40,80,120,160,200)进行 Mashup 分类实验,γ设置为上述最佳值,得到的
         Micro F1 值和 Macro F1 值如图 10 所示.











                               Fig.10    Walk length parameter analysis of Mashup dataset
                                    图 10  Mashup 数据集游走步长参数分析
   93   94   95   96   97   98   99   100   101   102   103