Page 274 - 《软件学报》2021年第12期
P. 274

3938                                 Journal of Software  软件学报 Vol.32, No.12 December 2021

                       100    GR-PPFM                      45  GR-PPFM
                       平均支持度相对误差(%)   60                   频繁项集丢失率(%)   35
                              mask
                                                        40
                                                              mask
                        80
                                                        30
                                                        25
                                                        20
                        40
                                                        15
                        20
                         0                                10 5 0   1  2  3   4     5
                         1      2     3     4      5

                                 频繁项集长度 k                         频繁项集长度 k
                                                                       −
                      (a)  支持度误差ρ随项集长度 k 的变化曲线         (b)  频繁项集丢失率θ 随 k 的变化曲线

                       600    GR-PPFM                    55                 GR-PPFM
                      频繁项集增加率(%)   400                     平均支持度相对误差(%)   40
                                                        50
                                                                            mask
                       500
                                                        45
                              mask
                                                        35
                                                        30
                       300
                                                        25
                                                        20
                       200
                                                        10
                       100
                                                          15 5
                        0                                0   1  2  4  6   8   10  20
                         1     2      3     4      5
                                 频繁项集长度 k                     最小支持度阈值 min_sup
                                      +
                        (c)  频繁项集增加率θ 随 k 的变化曲线         (d)  支持度误差ρ随 min_sup 的变化曲线

                        30                 GR-PPFM        50                GR-PPFM
                      频繁项集丢失率(%)   20                      频繁项集增加率(%)   40
                        25
                                                                            mask
                                           mask
                        15
                                                        30
                        10
                                                        20
                        5
                                                          10
                        0                                0
                         1   2   4    6   8   10  20     1   2    4   6   8   10  20

                              最小支持度阈值 min_sup                 最小支持度阈值 min_sup
                                   −
                                                                    +
                     (e)  频繁项集丢失率θ 随 min_sup 的变化曲线    (f)  频繁项集增加率θ 随 min_sup 的变化曲线
                            Fig.3    Experiment error of mask and GR-PPFM on real-world data
                                 图 3   mask 与 GR-PPFM 在真实数据中的实验误差
             图 3(a)测得的ρ正是按项集长度的递增而递增的,同理论分析一致.
         3.3.1.2   项集身份误差
             图 2(b)、图 3(b)和图 2(c)、图 3(c)给出了项集身份误差随频繁项集长度 k 的变化情况,可以看出:(1)  分组
         随机化 GR-PPFM 方法误差小于单参数随机化 mask 方法;(2)  项集身份误差随 k 的变化跟图 2(a)、图 3(a)中支
         持度误差ρ随 k 的变化情况相近,误差大致随 k 增大而增大.
              −
                +
             θ ,θ 随 k 变化规律与ρ随 k 变化规律的相似性是容易理解的,因为追根溯源,项集支持度大小决定了项集作
         为频繁项集还是非频繁项集的身份,项集支持度误差从最深层次反映了随机化过程对于数据的影响,项集身份
         误差是项集支持度误差的外在表现.
         3.3.2    误差与支持度阈值的关系
         3.3.2.1   支持度误差
             图 2(d)给出了合成数据所有频繁项集(从频繁 1-项集到频繁 8-项集,k=ALL)的平均支持度相对误差ρ随最
         小支持度阈值 min_sup 的变化曲线.图 3(d)给出了真实数据上ρ随 min_sup 的变化曲线.
   269   270   271   272   273   274   275   276   277   278   279