Page 241 - 《软件学报》2020年第11期
P. 241

3556                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                 Random、HD-QMC 与 BB-QMC 算法在 6 个节点下的算法执行效率提升明显,由于这 3 种算法都使用了分割的
                 思想同时对不同的子空间进行采样,执行效率都随节点数增加而提升,因此 HD-QMC 可扩展性很好,适合 OBG
                 数据的收集与更新.

                                                                 60000
                           60000
                                    Sequence                              Sequence
                                    Random                       50000
                           50000    Snowballing                           Random
                                                                          Snowballing
                                    BB-QMC                                BB-QMC
                                    HD-QMC                       40000    HD-QMC
                           40000
                          执行时间 (s)  30000                       执行时间 (s)  30000
                                                                 20000
                           20000
                           10000                                 10000
                             0                                     0
                                0  200  400  600  800 1000 1200 1400 1600  0  200  400  600  800 1000 1200 1400 1600
                                     已收集数据量 (MB)                           已收集数据量 (MB)
                             Fig.17    Execution time on 1 node   Fig.18    Execution time on 6 nodes
                              图 17   1 节点下算法执行时间                   图 18   6 节点下算法执行时间

                 5    结论与展望

                    本文首先讨论了基于采样技术的自适应 OBG 数据收集,该方法能够通过 QMC 采样找到重要的子空间并
                 尽可能好地给出 OBG 中对象数据的收集顺序,以实现 OBG 数据有效收集.同时给出数据的统一表示方法,降低
                 数据集成和使用的成本.进一步地,我们扩展数据收集方法,给出高效的数据更新算法,既能利用历史数据中的
                 数据变化规律,又能利用增量中新的数据变化规律,共同指导后续的数据更新过程.即使数据不断变化,本文的
                 算法总能快速发现增量,完成高效的数据更新.实验结果表明,在大多数情况下,本文方法能够取得较好的效果,
                 可为大数据分析和知识工程提供方便易用的数据基础.但是,对部分社交媒体 OBG 数据的获取,还需针对其本
                 身的特点进一步研究,后续工作将针对社交媒体数据中社交行为与社区演化的具体过程,探索相应的 OBG 数据
                 获取方法,且保证其有效性和高效性.


                 References:
                 [1]    Wang JM.  Key technologies  in big  data  applications development  and runtime support platform.  Ruan Jian  Xue  Bao/Journal of
                     Software, 2017,28(6):1516−1528  (in Chinese with English abstract).  http://www.jos.org.cn/1000-9825/5231.htm  [doi:  10.13328/
                     j.cnki.jos.005231]
                 [2]    Wu XD, Chen HH, Wu GQ, Liu J, Zheng QH, He XF, Zhou AY, Zhao ZQ, Wei BF, Li Y, Zhang QP, Zhang SC. Knowledge
                     engineering with big data. IEEE Intelligent Systems, 2015,30(5):46−55. [doi: 10.1109/MIS.2015.56]
                 [3]    Zhang JZ,  Meng  XF.  Mobile  Web search.  Ruan Jian  Xue Bao/Journal of Software, 2012,23(1):46−64 (in  Chinese with English
                     abstract). http://www.jos.org.cn/1000-9825/4120.htm [doi: 10.3724/SP.J.1001.2012.04120]
                 [4]    Wang GL, Han YB, Zhang ZM, Zhu ML. Could-based integration and service of streaming data. Chinese Journal of Computers,
                     2017,2017(1):107−125 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2017.00107]
                 [5]    Xia D,  Wang YS, Zhao ZP, Cui D.  Incremental and interactive  data integration approach  for hierarchical data in  domain  of
                     intelligent livelihood.  Journal  of Computer Research and Development, 2017,54(3):586−596  (in Chinese with English abstract).
                     [doi: 10.7544/issn1000-1239.2017.20151048]
                 [6]    Lin HL, Wang YZ, Jia YT, Zhang P, Wang WP. Network big data oriented knowledge fusion methods: A survey. Chinese Journal
                     of Computers, 2017, 2017(1):1−27 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2017.00001]
                 [7]    Surendran S, Prasad  DC,  Kaimal  MR. A scalable geometric  algorithm for  community detection from  social networks  with
                     incremental update. Social Network Analysis and Mining, 2016,6(1):Article No.90. [doi: 10.1007/s13278-016-0399-9]
                 [8]    Xi SJ, Sun FC, Wang JM. A cognitive crawler using structure pattern for incremental crawling and content extraction. In: Proc. of
                     the IEEE Int’l Conf. on Cognitive Informatics. 2010. 238−244. [doi: 10.1109/COGINF.2010.5599733]
   236   237   238   239   240   241   242   243   244   245   246