Page 272 - 《软件学报》2021年第12期
P. 272
3936 Journal of Software 软件学报 Vol.32, No.12 December 2021
比例和进一步细分.隐私保护级别设置大致遵从国家保密局 2007 年 6 月 22 日颁布的《信息安全等级保护管理
办法》中的五级分类.表 4 中:1 级表示信息密级为公开,不需保护;2 级表示信息密级为限制,需弱保护;3 级表示
信息密级为秘密,需保护;4 级表示信息密级为机密,需强保护;5 级表示信息密级为绝密,需特别强的保护.5 级分
类不仅考虑了信息保护需求的差异性,同时级数设置较少易于管理,实际中也可根据需要进一步分级细化.
• 第 3 步,生成单参数随机化数据集.
为便于同单参数 mask 方法对比,对数据集 D 进行单参数随机化干扰,生成 mask 方法所用的单参数随机数
据集 D′ ,随机化概率 p 设置为多参数随机化的平均概率,即:
mask
5
p = = ∑ w 30% 1 20% 0.9 20% 0.8 20% 0.7 10% 0.6× p + × + × + × + × = 0.84.
g g
g = 1
• 第 4 步,挖掘随机化数据.
针对多个不同的最小支持度阈值,分别运用 Apriori 算法以及带有支持数重构的 GR-PPFM 方法,对第 3 步
生成的多参数随机化数据集 D′进行挖掘,记录每次挖掘得到的所有频繁项集和其支持数.同时,运用 Apriori 算
法和 mask 方法,对第 4 步生成的单参数随机化数据集 D′ mask 挖掘,记录挖掘得到的频繁项集和对应的支持数.
• 第 5 步,计算分析误差.
对比第 4 步的挖掘结果,计算分析 mask 方法、GR-PPFM 方法的挖掘结果误差,包括项集支持度相对误差ρ、
−
+
项集身份误差θ 和θ .其中,ρ反映频繁项集在随机化数据中重构后的支持度与其在原数据中的实际支持度间的
−
+
相对误差;θ 表示频繁项集丢失率,衡量原先频繁而被错误识别为不频繁的项集占原频繁项集总数的比例;θ 表
示频繁项集增加率,衡量原先不频繁而被错误识别为频繁的项集占原频繁项集总数的比例.具体公式见文献[1].
Table 4 Randomization parameter settings of dataset D
表 4 数据集 D 的随机化模型参数设置
分组 所占比例(%) 随机化参数 隐私保护级别(密级)
Group1 30 1 1 级(公开)
Group2 20 0.9 2 级(限制)
Group3 20 0.8 3 级(秘密)
Group4 20 0.7 4 级(机密)
Group5 10 0.6 5 级(绝密)
3.3 结果分析
本节对实验结果分析,考察不同方法挖掘结果的误差随项集长度 k、最小支持度阈值 min_sup 的变化情况,
并对不同方法的误差进行对比.其中,图 2 为合成数据上的实验结果,图 3 为真实数据上的实验结果.
3.3.1 误差与项集长度的关系
3.3.1.1 支持度误差
图 2(a)给出了针对合成数据,当最小支持度阈值 min_sup=0.1%时,mask 和本文 GR-PPFM 方法的平均支持
度相对误差ρ随频繁项集长度 k 的变化曲线.图 3(a)给出了针对真实数据,当 min_sup=1%时,ρ随 k 的变化曲线.
(1) 横向比较:很明显,本文提出的多参数随机化 GR-PPFM 的误差小于单参数随机化 mask 方法.说明了在
整体隐私保护度相同的情况下(实验中,mask 的随机化参数 p 等于多参数随机化的平均概率 p ),
GR-PPFM 挖掘结果好于 mask;
(2) 误差随频繁项集长度 k 的变化:
a. 理论上,从 k-项集的支持度重构递归公式(4)分析,k-项集的重构支持度 s 依赖于该 k-项集的所有子集的
k
重构支持度 s k − 1 ,s k − 2 ,...,s ,作为一个递归的过程, s k − 1 的支持度依赖于 s k − 2 ,...,s ,依此类推.这种递归依赖关系将
1
1
导致误差的级联传导,使误差从 1-项集逐渐向上层传递和累积,因此直观上,k 越大,理论偏差也越大;
b. 观察图 2(a)发现,平均支持度相对误差随 k 大体呈现先上升、后下降的趋势.在频繁 5-项集处,平均支持
度误差最大,5-项集之前误差随 k 的增加而增大,5-项集之后误差大致平缓下降.为什么图中的误差在频繁 5-项
集后会出现回落呢?回到ρ的计算公式,不难发现,ρ计算的是频繁项集的平均支持度相对误差,这意味着ρ与最小