Page 235 - 《软件学报》2020年第11期
P. 235

3550                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                                                       1
                                                         o 0~o 7
                                                         --  --
                                                2                   3
                                                 o 0~o 3        o 4~o 7
                                                2.79  --      1.66  --
                                                o 0  o 1      o 4  o 5
                                            8           10 4           6
                                              o 0 ,o 2  o 1,o 3  o 4,o 6  o 5 ,o 7
                                             0.28  0  0.28  0  1.73 1.96 1.73 1.96
                                                  o 2   o 3     o 6    o 7
                                                9            11     5       7
                                                   o 2    o 3    o 6     o 7
                                                  --  --  --  --  --  --  --  --
                                                Fig.6  Example of data updating
                                                  图 6   数据更新过程举例

                 4    实验结果

                 4.1   实验设置

                    为了测试本文提出方法的性能,我们基于 Spark 平台实现本文的算法,分别测试了算法 1(HD-QMC)和算法
                 2(EPP)的有效性和效率.Spark 集群包括 6 计算节点,每个计算节点拥有 2 个 10 核心/20 线程/3.6GHz 的 CPU 和
                 128GB 内存.各计算节点共用一个千兆交换机,且网络带宽限制为 2Mb/s.Spark 和 HDFS 版本分别为 1.6.1 和
                 2.5.2.实验使用的测试数据集见表 1.
                                                    Table 1   Test datasets
                                                     表 1   测试数据集
                                                                                      3
                                                                                             4
                     测试类型                           数据集                          |O|(×10 )  |E|(×10 )   |R|
                                                   Ber-Stan [25]                   15     150     1
                       收集                         Facebook [26]                    4       88     4
                              Wikidata(https://www.wikidata.org/wiki/Wikidata:Database_download,2018)  10  49  2 900
                     收集/更新                      微博(Microblog) [27]                 40     1 000   4
                       更新                            LFR                           15      16     4

                 4.2   有效性测试
                    (1) HD-QMC 算法有效性测试
                    为了测试 HD-QMC 数据收集的有效性,本文选用 Ber-Stan、Facebook、微博和 Wikidata 分别作为典型的
                 网页 OBG、社交媒体 OBG 和知识库 OBG.需要说明的是,实验所使用的 Wikidata 数据集是存储在维基网站上
                 的数据,实验中需要通过网络访问,使用前 10 000 个实体作为测试数据集.Ber-Stan、Facebook 和微博数据集预
                 先下载到本地磁盘,测试时模拟了数据收集的真实环境,仿真了数据收集过程中网络访问的开销.
                    将 OBG 中对象之间的连接作为目标信息,并以目标信息覆盖度来度量 OBG 中目标信息的收集进度,由
                                                    c
                      c D ()Ψ ∑  D (Ψ ∑  ) 计算得到,其中,Ψ 和Ψ 分别代表已收集数据的集合与全体数据的集合.针对目标信
                   ΨΨ∈  i  i  Ψ j Ψ∈  j
                 息覆盖度对本文提出的 HD-QMC 进行测试,并与顺序收集(sequence)、深度优先策略(DFS)、Snowball 采样
                 (snowballing) [13] 、随机选择(random)和基于 QMC 采样技术的方法(BB-QMC)      [20] 进行了对比,分别如图 7(a)~图
                 7(d)所示.其中,
                    •   Sequence、DFS 和 Snowballing 是传统的顺序、深度优先和 Snowball 采样方法.
                    •   Random 方法随机选取对象进行数据收集.
                    •   BB-QMC 是一种先进和新颖的数据收集方法,其依照不同子空间的重要性自适应的收集 OBG 数据.但
   230   231   232   233   234   235   236   237   238   239   240