Page 235 - 《软件学报》2020年第11期
P. 235
3550 Journal of Software 软件学报 Vol.31, No.11, November 2020
1
o 0~o 7
-- --
2 3
o 0~o 3 o 4~o 7
2.79 -- 1.66 --
o 0 o 1 o 4 o 5
8 10 4 6
o 0 ,o 2 o 1,o 3 o 4,o 6 o 5 ,o 7
0.28 0 0.28 0 1.73 1.96 1.73 1.96
o 2 o 3 o 6 o 7
9 11 5 7
o 2 o 3 o 6 o 7
-- -- -- -- -- -- -- --
Fig.6 Example of data updating
图 6 数据更新过程举例
4 实验结果
4.1 实验设置
为了测试本文提出方法的性能,我们基于 Spark 平台实现本文的算法,分别测试了算法 1(HD-QMC)和算法
2(EPP)的有效性和效率.Spark 集群包括 6 计算节点,每个计算节点拥有 2 个 10 核心/20 线程/3.6GHz 的 CPU 和
128GB 内存.各计算节点共用一个千兆交换机,且网络带宽限制为 2Mb/s.Spark 和 HDFS 版本分别为 1.6.1 和
2.5.2.实验使用的测试数据集见表 1.
Table 1 Test datasets
表 1 测试数据集
3
4
测试类型 数据集 |O|(×10 ) |E|(×10 ) |R|
Ber-Stan [25] 15 150 1
收集 Facebook [26] 4 88 4
Wikidata(https://www.wikidata.org/wiki/Wikidata:Database_download,2018) 10 49 2 900
收集/更新 微博(Microblog) [27] 40 1 000 4
更新 LFR 15 16 4
4.2 有效性测试
(1) HD-QMC 算法有效性测试
为了测试 HD-QMC 数据收集的有效性,本文选用 Ber-Stan、Facebook、微博和 Wikidata 分别作为典型的
网页 OBG、社交媒体 OBG 和知识库 OBG.需要说明的是,实验所使用的 Wikidata 数据集是存储在维基网站上
的数据,实验中需要通过网络访问,使用前 10 000 个实体作为测试数据集.Ber-Stan、Facebook 和微博数据集预
先下载到本地磁盘,测试时模拟了数据收集的真实环境,仿真了数据收集过程中网络访问的开销.
将 OBG 中对象之间的连接作为目标信息,并以目标信息覆盖度来度量 OBG 中目标信息的收集进度,由
c
c D ()Ψ ∑ D (Ψ ∑ ) 计算得到,其中,Ψ 和Ψ 分别代表已收集数据的集合与全体数据的集合.针对目标信
ΨΨ∈ i i Ψ j Ψ∈ j
息覆盖度对本文提出的 HD-QMC 进行测试,并与顺序收集(sequence)、深度优先策略(DFS)、Snowball 采样
(snowballing) [13] 、随机选择(random)和基于 QMC 采样技术的方法(BB-QMC) [20] 进行了对比,分别如图 7(a)~图
7(d)所示.其中,
• Sequence、DFS 和 Snowballing 是传统的顺序、深度优先和 Snowball 采样方法.
• Random 方法随机选取对象进行数据收集.
• BB-QMC 是一种先进和新颖的数据收集方法,其依照不同子空间的重要性自适应的收集 OBG 数据.但