Page 226 - 《软件学报》2021年第11期
P. 226
3552 Journal of Software 软件学报 Vol.32, No.11, November 2021
1
α ≤ ρ (35)
1(C+ 1 dm+ − 1) e ⋅ 2 ⋅− d
即最大后验置信度不超过ρ,通过对公式(34)运算后,得到公式(36).
⎛ 1 ρ 1 ⎞ − 2
α ≤ − ln ⎜ ⋅ 1 ⎟ ⋅ (36)
⎝ ρ C dm+ − 1 ⎠ d
通过公式(36)建立了隐私α与ρ的关系,令
⎛ 1 ρ 1 ⎞ − 2
α = − ln ⎜ ⋅ 1 ⎟ ⋅ (37)
⎝ ρ C dm+ − 1 ⎠ d
能够使得 MPC≤ρ.
5 实验结果与分析
本节我们在实验环境中评价本文提出的本地差分隐私事务数据收集方法 TDC_CLDP,并与 PrivSet 方法进
行比较.首先考查在不同参数设置的情况下,(d,m)与(ε,α)的不同值对 TDC_CLDP 与 PrivSet 所产生的 k 值与错
误边界(error bound)的影响.同时,文献[33]与文献[22]都是针对事务数据基于本地差分隐私模型进行随机响应
的优秀方法,这二者的基本思想类似,都是从事务数据随机抽取一个项,进行随机响应后发送给服务器,即服务
器最终只会收到一个 Bit 的数据,本文将这类方法统称为 Binary Randomized Response(简称 BRR 方法),实验中
也与 BRR 方法进行了对比.其次,在人造数据集与真实数据集中对比 TDC_CLPD 与 PrivSet 对项的频数分布估
计.第三,在不同的参数设置下,分析 TDC_CLDP 在 TopK 频繁项集挖掘任务中的效用性.第四,分析不同的 MPC
上界ρ对隐私参数α的影响.最后,从整体上分析与对比 TDC_CLDP 与 PrivSet 的区别及改进.
5.1 实验设置与运行环境
为与 PrivSet 方法进行比较,本文用的数据集与实验环境与该方法相同.通过模拟生成的事务数据集尽可能
与现实的数据集接近,数据集中的用户数为 1 000,项集域长度 d 的范围为 4~200,事务最大长度 m 的范围为
2~150,隐私参数ε,α的范围为 0.01~3.0.不同的参数组合均进行模拟实验 1 000 次,结果取平均值.每次模拟生成
的事务数据集的中每个项均是通过从 I 中以概率 m/d 随机抽取.本文提出的 TDC_CLDP 与 PrivSet 类似,都与具
体的数据集无关.模拟生成的事务数据集具有广泛的代表性,为进一步验证 TDC_CLDP 的应用场景,本文在真
实数据集 MovieLens 进行了相同的实验,从 MovieLens 数据集中选取 1 000 个用户以及前 200 个使用频繁的项.
实验的运行环境为 Intel(R) Core(TM) i7-7660U CPU@2.50GHz 2.50GHz,16.00GB 内存,64 位 Win10 操作系
统,实现算法的编程语言为 Python3.6.3.整个实验过程如图 3 所示.
Fig.3 Experimental procedure
图 3 实验过程