Page 241 - 《软件学报》2020年第11期
P. 241
3556 Journal of Software 软件学报 Vol.31, No.11, November 2020
Random、HD-QMC 与 BB-QMC 算法在 6 个节点下的算法执行效率提升明显,由于这 3 种算法都使用了分割的
思想同时对不同的子空间进行采样,执行效率都随节点数增加而提升,因此 HD-QMC 可扩展性很好,适合 OBG
数据的收集与更新.
60000
60000
Sequence Sequence
Random 50000
50000 Snowballing Random
Snowballing
BB-QMC BB-QMC
HD-QMC 40000 HD-QMC
40000
执行时间 (s) 30000 执行时间 (s) 30000
20000
20000
10000 10000
0 0
0 200 400 600 800 1000 1200 1400 1600 0 200 400 600 800 1000 1200 1400 1600
已收集数据量 (MB) 已收集数据量 (MB)
Fig.17 Execution time on 1 node Fig.18 Execution time on 6 nodes
图 17 1 节点下算法执行时间 图 18 6 节点下算法执行时间
5 结论与展望
本文首先讨论了基于采样技术的自适应 OBG 数据收集,该方法能够通过 QMC 采样找到重要的子空间并
尽可能好地给出 OBG 中对象数据的收集顺序,以实现 OBG 数据有效收集.同时给出数据的统一表示方法,降低
数据集成和使用的成本.进一步地,我们扩展数据收集方法,给出高效的数据更新算法,既能利用历史数据中的
数据变化规律,又能利用增量中新的数据变化规律,共同指导后续的数据更新过程.即使数据不断变化,本文的
算法总能快速发现增量,完成高效的数据更新.实验结果表明,在大多数情况下,本文方法能够取得较好的效果,
可为大数据分析和知识工程提供方便易用的数据基础.但是,对部分社交媒体 OBG 数据的获取,还需针对其本
身的特点进一步研究,后续工作将针对社交媒体数据中社交行为与社区演化的具体过程,探索相应的 OBG 数据
获取方法,且保证其有效性和高效性.
References:
[1] Wang JM. Key technologies in big data applications development and runtime support platform. Ruan Jian Xue Bao/Journal of
Software, 2017,28(6):1516−1528 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5231.htm [doi: 10.13328/
j.cnki.jos.005231]
[2] Wu XD, Chen HH, Wu GQ, Liu J, Zheng QH, He XF, Zhou AY, Zhao ZQ, Wei BF, Li Y, Zhang QP, Zhang SC. Knowledge
engineering with big data. IEEE Intelligent Systems, 2015,30(5):46−55. [doi: 10.1109/MIS.2015.56]
[3] Zhang JZ, Meng XF. Mobile Web search. Ruan Jian Xue Bao/Journal of Software, 2012,23(1):46−64 (in Chinese with English
abstract). http://www.jos.org.cn/1000-9825/4120.htm [doi: 10.3724/SP.J.1001.2012.04120]
[4] Wang GL, Han YB, Zhang ZM, Zhu ML. Could-based integration and service of streaming data. Chinese Journal of Computers,
2017,2017(1):107−125 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2017.00107]
[5] Xia D, Wang YS, Zhao ZP, Cui D. Incremental and interactive data integration approach for hierarchical data in domain of
intelligent livelihood. Journal of Computer Research and Development, 2017,54(3):586−596 (in Chinese with English abstract).
[doi: 10.7544/issn1000-1239.2017.20151048]
[6] Lin HL, Wang YZ, Jia YT, Zhang P, Wang WP. Network big data oriented knowledge fusion methods: A survey. Chinese Journal
of Computers, 2017, 2017(1):1−27 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2017.00001]
[7] Surendran S, Prasad DC, Kaimal MR. A scalable geometric algorithm for community detection from social networks with
incremental update. Social Network Analysis and Mining, 2016,6(1):Article No.90. [doi: 10.1007/s13278-016-0399-9]
[8] Xi SJ, Sun FC, Wang JM. A cognitive crawler using structure pattern for incremental crawling and content extraction. In: Proc. of
the IEEE Int’l Conf. on Cognitive Informatics. 2010. 238−244. [doi: 10.1109/COGINF.2010.5599733]