Page 238 - 《软件学报》2020年第11期

P. 238

尹子都等:基于采样的在线大图数据收集和更新 3553

进一步地,我们根据公式(6)计算了上述对比方法与 HD-QMC 在各个数据集下的有效性指标(S A ),见表 2.不
难看出,由于 HD-QMC 能够更精确地计算子空间的重要性,因此所有数据集上获得了最高的 S A ,并取得了最好
的数据收集效果.DFS 方法由于无法在微博数据集上运行,表 2 中对应值未列出.

Table 2 S A of different methods for data collection
表 2 不同数据收集方法的 S A

数据集 Sequence Random Snowballing DFS BB-QMC HD-QMC
Wiki-data 53.45 50.02 50.62 50.48 56.45 59.27
Ber-stan 49.99 51.06 45.12 44.36 56.44 57.50
Facebook 21.51 18.23 21.30 19.13 22.83 22.99
微博 505.54 401.04 471.53 N/A 488.31 550.73

(2) EPP 算法有效性测试
我们用 2 个典型的数据集测试 EPP 算法的有效性:第 1 个是时间跨度 2 周、约 11 000 个用户的真实微博
数据集,第 1 周数据作为已收集数据,第 2 周数据作为新数据;第 2 个是由扩展的 LFR 方法 [28] 生成的 LFR 数据
集,以此来测试当社交媒体中存在极端变化时,EPP 的数据更新效果.与 HD-QMC 的测试相似,我们测试了不同
[9]
方法的目标信息覆盖度,包括本文提出的 EPP、基于统计的方法(Statistic) 和基于结构的方法(structure-
based) [22] ,如图 10(a)、图 10(b)所示.其中,基于统计的方法通过统计并计算历史数据中对象变化的概率进行数据
更新,基于结构的方法通过计算对象间不同连接结构的变化概率进行数据更新.

EPP
1.0 Statistic 1.0
Structure-Based
目标信息覆盖度 0.5 目标信息覆盖度 0.5 EPP

Statistic
0.0
0.0
Structure-Based
0 2000 4000 6000 8000 10000 12000 14000 0 2000 4000 6000 8000 10000 12000 14000
已收集对象数已收集对象数
(a) 微博 (b) LFR
Fig.10 Target information coverage of different methods for data updating
图 10 不同数据更新方法的目标信息覆盖度

根据公式(6),以上 3 种方法的有效性指标(S A )见表 3.
Table 3 S A of different methods for data updating
表 3 不同数据更新方法的 S A
数据集 Statistic Structure-based EPP
微博 41.03 10.99 42.17
LFR 115.62 90.49 109.78

结合图 10 和表 3 可以看出,对于真实的微博数据集,EPP 比其他方法能够更好地发现增量,但是基于统计的
方法在 LFR 数据集上取得了更好的数据更新效果.
我们进一步用 F1 值测试 EPP 针对数据更新的有效性.
2 Pr Re⋅ ⋅
F 1 = (14)
Pr + Re
其中,Pr 和 Re 分别表示 Precision 值和 Recall 值,Precision 是 EPP 发现的增量与其预测增量的比值,Recall 是 EPP
发现的增量与真实增量的比值.测试结果如图 11(a)、图 11(b)所示,可以看出,EPP 在微博和 LFR 数据集上优于

233 234 235 236 237 238 239 240 241 242 243