Page 239 - 《软件学报》2020年第11期
P. 239

3554                                Journal of Software  软件学报 Vol.31, No.11, November 2020

                 基于统计和基于结构的方法.

                           0.8
                                                                 0.4
                           0.6

                           F1 值  0.4                            F1 值  0.2
                           0.2                  EPP                                  EPP
                                                Statistic        0.0                 Statistic
                           0.0                  Structure-Based                      Structure-Based
                               0  2000  4000  6000  8000 10000 12000 14000  0  2000  4000  6000  8000 10000 12000 14000
                                       已收集对象数                                已收集对象数
                                       (a)  微博                               (b) LFR

                                       Fig.11   F1 values of different methods for data updating
                                               图 11   不同数据更新方法的 F1 值
                    为了测试 EPP 算法中参数对数据更新效果的影响,本文比较了微博和 LFR 数据集上不同窗口因子(α)和融
                 合比率(β)时的 F1 值.为了便于观察,我们对测试结果进行归一化,分别如图 12 和图 13 所示.

                            1.0                                  1.0
                                   α=0.2                                                   α=0.2
                            0.8    α=0.4                         0.8                       α=0.4
                                   α=0.6
                                                                                           α=0.6
                           归一化的F1 值  0.6   α=0.8                归一化的F1 值  0.6              α=0.8
                                                                 0.4
                            0.4
                            0.2
                            0.0                                  0.2
                                                                 0.0
                               0  2000  4000  6000  8000 10000 12000 14000  0  2000  4000  6000  8000 10000 12000 14000
                                        已收集对象数                               已收集对象数
                                       (a)  微博                              (b) LFR
                                      Fig.12   Normalized F1 value with different window factors
                                             图 12   不同窗口因子下归一化的 F1 值

                            1.0                                  1.0
                                                      β=0.2                                β=0.2
                            0.8                       β=0.4      0.8                       β=0.4
                                                                                           β=0.6
                           归一化的F1 值  0.6              β=0.8     归一化的F1 值  0.6              β=0.8
                                                      β=0.6
                            0.4
                                                                 0.4
                            0.2
                            0.0                                  0.2
                                                                 0.0
                               0  2000  4000  6000  8000 10000 12000 14000  0  2000  4000  6000  8000 10000 12000 14000
                                        已收集对象数                               已收集对象数
                                       (a)  微博                              (b) LFR
                                       Fig.13   Normalized F1 value with different fusion ratios
                                             图 13   不同融合比率下归一化的 F1 值

                    在微博和 LRF 数据集上,α分别为 0.2 和 0.4 时 EPP 算法取得最好的效果.在微博上,β为 0.2 时算法效果最
                 好.而 LFR 数据集上,β为 0.2,0.4 和 0.6 的情况较为接近:访问对象小于 8 000 时,β为 0.2 最好;大于 8 000 时,β为
   234   235   236   237   238   239   240   241   242   243   244