Page 277 - 《软件学报》2021年第12期
P. 277

郭宇红  等:分组随机化隐私保护频繁模式挖掘                                                           3941


                                                             n
                                                  1 R p p
                                      overallPrivacy  =−  1 ( ), = ∑ w p g                   (10)
                                                               g
                                                            g = 1
             实验中,IBM Almaden 生成器生成的合成数据中,项的平均支持度 s 0 =40.69%;真实数据中,项的平均支持度
         s 0 =27.08%.项的平均支持度 s 0 取决于原数据,事实上,由于原数据是无法知道的,真实的 s 0 无从得知,实际中,可通
         过先验知识或抽样估计 s 0 值,也可通过重构得到的项的平均支持度代替 s 0 值.将 s 0 和 p 1 =1,p 2 =0.9,p 3 =0.8,p 4 =0.7,
         p 5 =0.6, p =0.84 代入公式(5)~公式(10),可分别求得合成数据和真实数据分组随机化时,在已知每个分组对应的
         随机化概率的条件下,GR-PPFM 对应的最低隐私保护度、最高隐私保护度、平均隐私保护度和整体隐私保护
         度,结果见表 5.
                                      Table 5    Privacy of GR-PPFM vs. mask
                                  表 5   GR-PPFM 与 mask 方法隐私保护性能对比
                                         分组多参数随机化 GR-PPFM        整体单参数随机化 mask

                                         合成数据         真实数据        合成数据     真实数据
                         最低隐私保护度           0             0
                         最高隐私保护度          57.0%        70.6%       32.4%    43.4%
                         平均隐私保护度          27.8%        35.9%
                         整体隐私保护度          32.4%        43.4%
                         隐私保护差异性               个体有差异                 个体无差异
                         个体随机化概率                不暴露                     暴露
                          暴露的信息       D′,(p 1,w 1),(p 2,w 2),(p 3,w 3),(p 4,w 4),(p 5,w 5)  D′,p
             单参数随机化 mask 仅对应一个隐私保护度,实验中,单参数 mask 方法的随机化概率 p=0.84,分组多参随机
         化的平均概率 p =0.84,两者相等.因此,单参数随机化的隐私保护度与分组随机化的整体隐私保护度相同,合成
         数据是 32.4%,真实数据是 43.4%.
         3.3.4.2   隐私保护差异性
             除定量考察隐私保护度外,还可定性分析两种方法对个体隐私保护的差异性及为支持度重构需暴露的信
         息的差异.GR-PPFM 对个体实施有差异的保护,而 mask 实施无差异的保护.
             从个体对应的随机化概率是否暴露给挖掘者来分析.在分组随机化 GR-PPFM 方法中,为了进行支持度重
         构,挖掘者只需要知道个体大致使用了哪些随机化参数以及相应的个体比例,而不需要知道具体的个体与使用
         的随机化参数的确切对应关系.但 mask 支持度重构需要知道 p,由于所有的个体都使用了同样的 p,所以挖掘者
         确切知道每个个体与随机化参数的对应关系,即任意指定一个个体,挖掘者都能确切知道该个体使用了什么样
         的参数进行了随机化变换.
             两种方法的隐私保护度、隐私保护差异性和为支持度重构需要暴露的信息见表 5,其中,D′表示 D 随机化后
         的全部数据, ′ D 表示 D 中以 p g 的概率随机化后的第 g 组数据,其占全部数据的比例为 w g .实验中,p 1 =1,p 2 =0.9,
                     g
         p 3 =0.8,p 4 =0.7,p 5 =0.6;w 1 =0.3,w 2 =0.2,w 3 =0.2,w 4 =0.2,w 5 =0.1.

         3.4   拓展实验
             为进一步探究本文工作 GR-PPFM 与其他相关工作的效能差异,本节设计实验对 GR-PPFM,emask 和 RE 这
         3 种算法进行对比.GR-PPFM 按行分组随机化,emask 对 0,1 分别随机化,RE 按列分组随机化,实验数据采用第
         3.1 节提到的真实购物篮数据,GR-PPFM 采用第 3.2 节实验方法第 2 步使用的分组比例和相应的随机化参数设
         置,平均随机化概率 p =0.84.Emask 设置两个随机化参数:p 1 =0.6,p 0 =0.9,即:对所有的“1”值,以 0.6 的概率保持不
         变,以 0.4 的概率取反;而对“0”值,则以 0.93 的概率保持不变,以 0.07 的概率取反.由于“1”和“0”在数据中的占比
         分别为 72.9%和 27.1%,平均随机化概率 p =0.6×72.9%+0.93×27.1%=0.84.RE 将购物篮数据中的 11 种商品分为
         3 组:(1) fruitveg,freshmeat,dairy;(2) cannedveg,cannedmeat,frozenmeal,beer,wine;(3) softdrink,fish,confectionery.
         第(1)组~第(3)组随机化参数分别设为 0.68,0.84,1,平均随机化概率 p =(3×0.68+5×0.84+3×1)/11=0.84.3 种方法的
         平均随机化概率均为 0.84,保证三者的整体隐私保护度相同.图 5 给出了 GR-PPFM,emask 和 RE 这 3 种方法在
         整体隐私保护度相同的情况下挖掘结果的差异.
   272   273   274   275   276   277   278   279   280   281   282