Page 233 - 《软件学报》2021年第11期
P. 233
欧阳佳 等:面向频繁项集挖掘的本地差分隐私事务数据收集方法 3559
需要添加更多的扰乱信息,即要求α更小.
图 12 的左图显示了固定 d 不变,m 增长时,隐私参数α随着ρ增长所呈现的趋势;右图显示了固定 m 不变,d
增长时,隐私参数α随着ρ增长所呈现的趋势.从图 12 中可以发现:(1) 整体的变化趋势与图 11 的实验结果相同.
(2) 如图 12 左图所示,当 d 不变,m(=2,4,8)的增长较为缓慢时,3 根曲线变化趋势相同,且区别不大.特别地,在ρ相
同的前提下,m 增大时,α是减小的.(3) 如图 12 右图所示,当 m 不变,d(=16,32,64)的增长较快时,3 根曲线变化趋
势相同,但区别是比较大的(这点与左图不同).特别地,在ρ相同的前提下,d 增大时,α也是增大的.
综合图 11 与图 12 所示的实验结果,可以得出结论:当(d,m)较大时,α随ρ的变化比较明显,进一步验证了
TDC_CLDP 适用于(d,m)较大的场景.表 4 显示了在不同(d,m)的场景下,可以依据ρ指导隐私参数α的设置.由于ρ
具有一定的语义,因此隐私参数α的设置也具有语义性.
5.6 TDC_CLDP对比PrivSet的改进
本文受文献[2]启发,对 PrivSet 方法进行改进,二者的区别主要有 3 个方面:(1) 采用的隐私模型不同;(2) 所
用的距离函数不同;(3) TDC_CLDP 提出了新的隐私参数设置策略.具体见表 5.
Table 5 Difference and improvement of TDC_CLDP vs. PrivSet
表 5 TDC_CLDP 对比 PrivSet 的区别及改进
名称 算法 区别与改进 本文优势
TDC_CLDP CLDP LDP 是 CLDP 的特殊情况,
隐私模型
PrivSet LDP CLDP 是 LDP 的泛化
α
隐私参数 TDC_CLDP 隐私参数:α, Pr[ ( )vΦ 1 = ] y ≤ e −⋅ ( dv 1 v⋅ 2 ) ⋅ Pr[ (vΦ 2 ) = ] y 将距离的概念引用本地
隐私上界 PrivSet 隐私参数:ε,Pr[ℜ(t)=t ]≤e ×Pr[ℜ(t′)=t ] 差分隐私,语义上更明显
*
ε
*
隐私参数 TDC_CLDP 基于 MPC 的上界ρ 隐私参数的设置更加直观
设置策略 PrivSet −
max(| |,| |)ts
TDC_CLDP 项集的曼哈顿距离,即相异度: ∑ | i t − i s | 保留更多信息,具有更好的
距离函数 i= 1 数据效用性
s
PrivSet 是否有交集: [t ∩ ≠∅
]
⎛ max(| |,| |)ts ⎞
−⋅ α ⎜ | i t − | i s ⎟ ∑
TDC_CLDP ⎜ ⎝ i= 1 ⎟ ⎠ 相异度越低,相似度越高,
抽样概率 e 2 Ω 抽中概率越大,即效用性越好
PrivSet e ε [t ⋅∩ ≠∅ ] /Ω
s
引入距离函数后,规范化因子、真正率、假正率有所区别
− α 0 ⋅ k ⎛ −⋅ (k − inter ) ⎞
α
TDC_CLDP e 2 ⋅ C d + k ∑ ⎜ e ⎜ 2 ⋅ (C m inter ⋅ C d k − inter )⎟ ⎟
Ω itenr= 1 ⎝ ⎠
PrivSet C d + k exp( ) (Cε ⋅ d m − k + C d d )
−⋅ α k k ⎛ −⋅ (k − inter ) ⎞
α
e 2 ⋅ (C d k − 1 ) + ∑ e ⎜ 2 ⋅ (C inter− m− 1 1 ⋅ C d k − inter )⎟
TDC_CLDP int re = 2 ⎝ ⎜ ⎟ ⎠
TPR Ω
ε
e C⋅ k − 1
PrivSet ε dm+− 1
k
⋅
C d + k e(C + − d m C k d )
α
− α 0 ⋅ k − 1 ⎛ −⋅ (k − inter ) ⎞
e 2 ⋅ C d − k − 1 + 1 ∑ e ⎜ 2 ⋅ (C inter ⋅ C k − d − 1 inter− )⎟
TDC_CLDP inter= 1 ⎝ ⎜ m 1 ⎟ ⎠
FPR Ω
C k − d − 1 k ⋅ (C + k C k d − ) m C + − ⋅ d m− k − 1 1
PrivSet 1 + exp( ) ε ⋅ d m
Ω d Ω ⋅
主要用于数据分析、项的频数估计、频繁项集挖掘、
TDC_CLDP
适用范围 TopK 频繁项集挖掘、关联规则挖掘等
PrivSet 主要用于统计、项的频数估计、1-频繁项集挖掘
结论 理论与实验结果表明,TDC_CLDP 整体上优于 PrivSet