Page 267 - 《软件学报》2021年第12期
P. 267

郭宇红  等:分组随机化隐私保护频繁模式挖掘                                                           3931


         不同.本文理论上推导了支持度重构递归公式,基于递归公式设计了完整的分组随机化隐私保护频繁项集挖掘
         算法,并基于大规模合成和真实数据集,针对支持度重构误差和隐私保护性能,与已有的 mask,emask,RE 方法进
         行了实验对比和评价,验证了方法的有效性.
             事实上,隐私保护的内涵决定了其首要目标是为个体提供其所要求的保护,而差异化保护正体现了这一内
         在目标.GR-PPFM 可在兼顾这种差异化保护要求的同时,保证正常挖掘任务的执行.实验结果表明:相对于已有
         单参数随机化 mask 方法,GR-PPFM 不仅能满足不同群体多样化的隐私保护需求,加强随机化参数设置的灵活
         性,还能在整体隐私保护度相同情况下,提高挖掘结果准确性.
         1    问题与架构

             基于分组随机化的隐私保护频繁模式挖掘 GR-PPFM 的总体架构如图 1 所示,所解决的问题是:给定原始事

         务集 D={D 1 ,D 2 ,…,D n }和最小支持度阈值 min_sup,如何利用 M 1 ,M 2 ,…,M n 共 n 个随机化模型,分别对 D 1 ,D 2 ,…,D n
         随机化,以及如何对随机化生成的事务集 D′ =             {,D D′ ′  ,...,D′  }进行挖掘,得到跟集合 F 尽可能接近的频繁项集集
                                               1  2   n
         合,其中,F 为从 D 挖掘得到的频繁项集集合.

                                                            模型参数

                                        D 1    M 1      1 D′
                                            随机化模型
                                  分                      模型参数
                                  组                                                 频
                          ...     提                                    支持    频繁     繁
                        被调查者                   M 2     D′        D′     度    模式     模
                                  交     D 2            2               重构    挖掘     式
                                  数                                                 集
                                  据      ...    ...     ...

                                        D n    M n    D′ n

                                                            模型参数

                                   客户端:隐私保护                          服务器端:挖掘
                                         Fig.1    Framework of GR-PPFM
                                            图 1   GR-PPFM 架构

             GR-PPFM 分 3 个阶段:(1)  数据分组;(2)  分组随机化;(3)  在支持度重构的基础上,进行频繁模式挖掘.
             (1)  第 1 阶段,隐私保护者对参与敏感问题的调查者(即数据提供者),按其对个人数据的保护程度要求进
                 行分组,保护要求相同的进入同一组.可以预先设置若干个保护级别,被调查者可根据个人偏好选择
                 一个合适的保护级别,一个级别对应一个分组.如图 1 所示,共有 n 个保护级别供用户选择,分组后形成
                 了 D 1 ,D 2 ,…,D n 共 n 组数据.假定隐私保护者已根据先验知识,设计好若干个不同的隐私保护级别和对
                 应的分组供被调查者选择,并假设参与调查的个体对其隐私保护取向都比较明确,能够通过引导选定
                 其想要的保护级别和“找到队伍”;
             (2)  第 2 阶段,隐私保护者在客户端运用随机化模型,对分组后的数据分别进行随机化,生成随机化后的数
                 据集.如图 1 所示,利用 M 1 ,M 2 ,…,M n 共 n 个随机化模型,对 D 1 ,D 2 ,…,D n 随机化,生成相应的
                  DD′ 1 , ′  2 ,...,D′  n  共 n 个随机化数据集.具体的随机化过程和参数设置在第 2.1 节给出;

             (3)  第 3 阶段,频繁模式挖掘者在服务器端,对随机化后的数据集 D′进行挖掘,生成想得到的频繁模式集.
                 数据集 D′由 DD′  1 , ′  2 ,...,D′  n  共同组成.为了保证从随机化后的数据集能挖掘出正确的频繁模式,以得到
                 正确的关联分析结果,一个很重要的部件是结合随机化模型参数进行项集支持度的重构,第 2.2 节讨
                 论支持度重构.
             上述 GR-PPFM 架构中,被调查者本人对持有的数据随机化,随后将随机化数据传给频繁模式挖掘服务器.
   262   263   264   265   266   267   268   269   270   271   272