Page 98 - 《软件学报》2021年第12期
P. 98
3762 Journal of Software 软件学报 Vol.32, No.12, December 2021
具体来说:
(1) 整体而言,无论是 Mashup 数据集还是 API 数据集,随着结构属性所占权重的提升,分类效果在不断上
升;但是当权重超过 0.6 或 0.7 左右时,分类效果开始下降.这说明对于 Mashup 和 API 的 Web 服务分
类来说,结构信息在一定程度上来说确实比属性信息更重要.另外,对于当权重超过一定阈值以后,分
类效果会出现下降的情况,其可能的原因是权重设置的越高,属性信息就会相对减少,整体的数据集
信息也会随之减少,从而影响分类效果;
(2) 总的来说,数据集所取分类的类别数越多,其分类效果受结构信息与属性信息权重的影响越大,其可
能原因是:1) 分类类别越多,数据集就越大且越复杂,更容易受到结构信息与属性信息的影响;2) 分类
是按照每个类别包含的 Mashup 或 API 的数量进行排名的,而排名靠后的类别由于所包含的 Mashup
或 API 数量的减少,其拥有的结构调用信息相对来说就会减少,从而影响分类效果.
2.6 γ和λ参数分析
在向量表征模型中,增加游走次数或游走步长可以收集更多的上下文信息,从而学习更精确的表示.但是过
多的游走次数和较大的游走步长都不合适,因为容易产生噪声数据,从而导致较差的网络表示.在本文中,我们
针对不同随机游走次数γ和游走步长λ下的 Mashup 和 API 分类进行实验比较,以确定最佳分类效果下的参数值.
2.6.1 Mashup 数据集分析
首先,选择不同游走次数γ(10,20,30,40,50)进行 Mashup 分类实验,游走步长λ暂设为方法的默认值 80,得到
的 Micro F1 值和 Macro F1 值如图 9 所示.
Fig.9 Number of walk parameter analysis of Mashup dataset
图 9 Mashup 数据集游走次数参数分析
从实验结果可以看出:
1) 对于 Mashup 数据集的 10 分类问题,当游走次数γ设置为 30 时,Mashup 数据集的分类效果最好;
2) 对于 Mashup 数据集的 20~50 分类问题,随着游走次数的增加,Micro F1 值和 Macro F1 值也逐渐增加;
但当γ超过 40 的时候,分类效果开始下降.
其次,我们选择不同的游走步长λ(40,80,120,160,200)进行 Mashup 分类实验,γ设置为上述最佳值,得到的
Micro F1 值和 Macro F1 值如图 10 所示.
Fig.10 Walk length parameter analysis of Mashup dataset
图 10 Mashup 数据集游走步长参数分析