Page 240 - 《软件学报》2020年第11期

P. 240

尹子都等:基于采样的在线大图数据收集和更新 3555

0.6 的效果最好.总体上,β为 0.2 时效果最好,对应曲线与坐标轴之间所构成区域的面积最大.由此可知,对于不同
的数据集,应选取合适的α和β.
4.3 效率测试
EPP 算法与 HD-QMC 算法执行效率接近,实验通过网络访问 Wikidata 数据集,测试了 HD-QMC 的执行时
间、加速比和并行效率,分别如图 14~图 16 所示.

60000 6 1 计算节点
1 计算节点 2 计算节点
50000 2 计算节点 5 4 计算节点
6 计算节点
4 计算节点 4
40000
执行时间 (s) 30000 加速比 3 2
6 计算节点
20000
10000 1
0 0
0 200 400 600 800 1000 1200 1400 1600 0 200 400 600 800 1000 1200 1400 1600
已收集数据量 (MB) 已收集数据量 (MB)
Fig.14 Execution time Fig.15 Speedup
图 14 执行时间图 15 加速比

2.0
1.5
并行效率 1.0 1 计算节点

0.5 2 计算节点
4 计算节点
6 计算节点
0.0
0 200 400 600 800 1000 1200 1400 1600
已收集数据量 (MB)
Fig.16 Parallel efficiency
图 16 并行效率

由图 14 可知,HD-QMC 数据收集的执行时间随着 OBG 中已访问对象数的增加基本呈线性增长,且 Spark
平台的计算节点越多执行时间越少,6 个节点时的总执行时间与 1 个节点时相比明显减少,为 1 节点下执行时间
的 1/6.图 15 中的加速比和图 16 中的并行效率在 HD-QMC 开始执行时便趋于稳定,加速比接近计算节点数,同
时,并行效率也接近理论最优值 1.以上情况产生的原因是由于 HD-QMC 的执行时间很大程度上依赖于网络带
宽,而多计算节点下的网络带宽会随着计算节点数同步增长.以上实验结果与理论分析得出的结论一致,进一步
验证了本文方法的高效性.
为了对比 HD-QMC 与传统算法的执行效率,实验测试了 HD-QMC 与 Sequence、Random、HD-QMC、
Snowballing 在执行时间与可扩展性上的差异.我们首先在 1 个计算节点情形下测试了不同算法的执行时间,得
到不同算法单线程执行效率.接着在 6 节点情形下再次测试算法执行时间,获取不同算法的可扩展性表现,分别
如图 17 和图 18 所示.
从图 17 可以看出,1 个计算节点情形下,Random 和 Snowballing 算法执行较慢,HD-QMC 和 BB-QMC 算法
稍快,Sequence 算法由于直接从对象列表中依次选取对象进行获取,所以最快.1 节点下单线程的 HD-QMC 没有
充分发挥可扩展性上的优势,但在 6 个计算节点情形下多线程测试中执行效率提升明显.从图 18 中可以看出,
由于无法并行执行,因此 6 个计算节点情形下 Snowballing 和 Sequence 算法执行时间与 1 个计算节点下一致.

235 236 237 238 239 240 241 242 243 244 245