Page 275 - 《软件学报》2021年第12期
P. 275

郭宇红  等:分组随机化隐私保护频繁模式挖掘                                                           3939


             (1)  横向比较:横向比较图 2(d)、图 3(d)可发现:误差大小关系跟图 2(a)、图 3(a)一致,仍是 GR-PPFM<mask.
                 说明在整体隐私保护度相同时,多参数随机化方法 GR-PPFM 的挖掘结果优于单参数 mask 方法;
             (2)  误差随支持度阈值 min_sup 的变化:观察曲线随 min_sup 的变化可发现,平均支持度误差随支持度阈
                 值的增大而减小.说明随着支持度阈值的增大,挖掘结果越好.原因是什么呢?由于支持度相对误差等
                 于绝对误差与原始支持度值的比值,假定项集 I 1 和 I 2 的绝对误差相等,则项集 I 1 和 I 2 的相对误差完全
                 取决于其原支持度值:原支持度值越大,其相对误差越小;原支持度值越小,其相对误差越大.当支持度
                 阈值增大时,其对应的频繁项集集合 F 中各项集的支持度相对越大,造成 F 中各项集的平均支持度相
                 对误差越小,误差随 min_sup 的变化呈现图 2(d)、图 3(d)中的趋势.
         3.3.2.2   项集身份误差
             图 2(e)、图 3(e)和图 2(f)、图 3(f)给出了项集身份误差随支持度阈值 min_sup 的变化情况.可看出,项集身
         份误差随 min_sup 的变化跟图 2(d)、图 3(d)支持度误差ρ随 min_sup 的变化情况大体相近,其基本规律:(1)  大
         多数情况下,分组随机化 GR-PPFM 方法的误差小于单参数随机化 mask 方法;(2)  误差随 min_sup 增大而减小.
          −
            +
         θ ,θ 随 min_sup 变化规律与ρ随 min_sup 变化规律相似.
         3.3.3    支持度重构与不重构误差对比
             通常,数据随机化后,由于数据被扰乱,项集的支持度将发生变化,若直接从随机化后的数据挖掘,不进行支
         持度重构,项集的支持度跟原始支持度比究竟会发生多大的变化呢?图 4(a)~图 4(d)分别给出了实验中针对合成
         数据和真实数据、单参数随机化 mask(随机化概率 p=0.84)支持度重构与不重构的误差对比及分组随机化
         GR-PPFM 支持度重构与不重构误差对比.图 4 中,合成数据、真实数据设置的最小支持度阈值分别为 0.1%,1%.
                                                          100              不重构
                      平均支持度相对误差(%)                         平均支持度相对误差(%)   60
                                                                           重构
                                                        80

                                                        40

                                                        20

                                                         0    1   2   3    4   5

                                 频繁项集长度 k                        频繁项集长度 k
                          (a)  合成数据单参数随机化 mask              (b)  真实数据单参数随机化 mask
                                                          120                  不重构
                      平均支持度相对误差(%)                         平均支持度相对误差(%)   80
                                                                               重构
                                                        100

                                                         60
                                                         40

                                                         20

                                                         0
                                                              1   2   3    4   5
                                 频繁项集长度 k                         频繁项集长度 k
                        (c)  合成数据个体分组随机化 GR-PPFM         (d)  真实数据个体分组随机化 GR-PPFM
                              Fig.4    Error of support reconstruction vs. non-reconstruction
                                      图 4   支持度重构与不重构误差对比

             图 4(a)、图 4(c)针对 IBM Almaden 生成器生成的数据,可发现支持度不重构的误差远远大于重构误差.说明
         数据经随机化后,项集的支持度已发生显著变化,直接从随机化后的数据得到的挖掘结果已远远偏离从原始数
   270   271   272   273   274   275   276   277   278   279   280