Page 233 - 《软件学报》2021年第11期
P. 233

欧阳佳  等:面向频繁项集挖掘的本地差分隐私事务数据收集方法                                                  3559


                 需要添加更多的扰乱信息,即要求α更小.
                    图 12 的左图显示了固定 d 不变,m 增长时,隐私参数α随着ρ增长所呈现的趋势;右图显示了固定 m 不变,d
                 增长时,隐私参数α随着ρ增长所呈现的趋势.从图 12 中可以发现:(1)  整体的变化趋势与图 11 的实验结果相同.
                 (2)  如图 12 左图所示,当 d 不变,m(=2,4,8)的增长较为缓慢时,3 根曲线变化趋势相同,且区别不大.特别地,在ρ相
                 同的前提下,m 增大时,α是减小的.(3)  如图 12 右图所示,当 m 不变,d(=16,32,64)的增长较快时,3 根曲线变化趋
                 势相同,但区别是比较大的(这点与左图不同).特别地,在ρ相同的前提下,d 增大时,α也是增大的.
                    综合图 11 与图 12 所示的实验结果,可以得出结论:当(d,m)较大时,α随ρ的变化比较明显,进一步验证了
                 TDC_CLDP 适用于(d,m)较大的场景.表 4 显示了在不同(d,m)的场景下,可以依据ρ指导隐私参数α的设置.由于ρ
                 具有一定的语义,因此隐私参数α的设置也具有语义性.
                 5.6   TDC_CLDP对比PrivSet的改进

                    本文受文献[2]启发,对 PrivSet 方法进行改进,二者的区别主要有 3 个方面:(1)  采用的隐私模型不同;(2)  所
                 用的距离函数不同;(3) TDC_CLDP 提出了新的隐私参数设置策略.具体见表 5.

                                   Table 5    Difference and improvement of TDC_CLDP vs. PrivSet
                                          表 5  TDC_CLDP 对比 PrivSet 的区别及改进

                         名称       算法                   区别与改进                         本文优势
                                TDC_CLDP                 CLDP                  LDP 是 CLDP 的特殊情况,
                        隐私模型
                                  PrivSet                 LDP                    CLDP 是 LDP 的泛化
                                                              α
                        隐私参数    TDC_CLDP   隐私参数:α, Pr[ ( )vΦ  1 =  ] y ≤ e −⋅  ( dv 1 v⋅  2 )  ⋅  Pr[ (vΦ  2 ) =  ] y  将距离的概念引用本地
                        隐私上界      PrivSet     隐私参数:ε,Pr[ℜ(t)=t ]≤e ×Pr[ℜ(t′)=t ]   差分隐私,语义上更明显
                                                                       *
                                                               ε
                                                            *
                        隐私参数    TDC_CLDP             基于 MPC 的上界ρ               隐私参数的设置更加直观
                        设置策略      PrivSet                  −
                                                                 max(| |,| |)ts
                                TDC_CLDP     项集的曼哈顿距离,即相异度:       ∑  | i t −  i s  |    保留更多信息,具有更好的
                        距离函数                                      i= 1              数据效用性


                                                               s
                                  PrivSet          是否有交集: [t ∩ ≠∅
                                                                  ]
                                                        ⎛  max(| |,| |)ts  ⎞
                                                       −⋅ α ⎜  | i t −  | i s ⎟ ∑
                                TDC_CLDP                ⎜  ⎝  i= 1  ⎟  ⎠        相异度越低,相似度越高,
                        抽样概率                          e   2    Ω              抽中概率越大,即效用性越好

                                  PrivSet              e ε [t ⋅∩ ≠∅ ] /Ω
                                                          s
                                          引入距离函数后,规范化因子、真正率、假正率有所区别
                                                         − α 0 ⋅  k ⎛  −⋅ (k −  inter  )  ⎞
                                                                    α
                                TDC_CLDP                e  2  ⋅  C d +  k  ∑  ⎜  e ⎜  2  ⋅  (C m inter  ⋅  C d k − inter )⎟  ⎟
                          Ω                                    itenr= 1 ⎝          ⎠
                                  PrivSet                     C d +  k  exp( ) (Cε ⋅  d m −  k +  C d d  )
                                                       −⋅ α  k   k ⎛  −⋅ (k − inter )  ⎞
                                                                     α
                                                      e  2  ⋅  (C d k −  1 ) +  ∑  e ⎜  2  ⋅  (C inter−  m− 1  1  ⋅  C d k − inter )⎟
                                TDC_CLDP                       int re = 2 ⎝  ⎜       ⎟  ⎠
                         TPR                                         Ω
                                                                   ε
                                                                   e C⋅  k − 1
                                  PrivSet                          ε  dm+− 1
                                                                       k
                                                                    ⋅
                                                               C d +  k  e(C + − d m  C k d  )
                                                                    α
                                                        − α  0 ⋅  k − 1 ⎛  −⋅ (k − inter  )  ⎞
                                                       e  2  ⋅  C d −  k −  1 +  1  ∑  e ⎜  2  ⋅  (C  inter  ⋅  C k −  d −  1 inter−  )⎟
                                TDC_CLDP                       inter= 1 ⎝  ⎜  m  1  ⎟  ⎠
                         FPR                                         Ω
                                                         C k −  d − 1  k ⋅  (C +  k  C k d −  ) m C + −  ⋅  d m−  k −  1  1
                                  PrivSet                  1  +  exp( ) ε ⋅  d m
                                                          Ω              d Ω  ⋅
                                                    主要用于数据分析、项的频数估计、频繁项集挖掘、
                                TDC_CLDP
                        适用范围                             TopK 频繁项集挖掘、关联规则挖掘等
                                  PrivSet             主要用于统计、项的频数估计、1-频繁项集挖掘
                         结论                    理论与实验结果表明,TDC_CLDP 整体上优于 PrivSet
   228   229   230   231   232   233   234   235   236   237   238