Page 271 - 《软件学报》2021年第12期
P. 271

郭宇红  等:分组随机化隐私保护频繁模式挖掘                                                           3935


                               ⎛  n     ⎞
                           . ′ −j s  ⎜  1− ⎜  g  g  ⎟ ∑ w p  ⎟
                       . ←
                 (b)   js      ⎝    g = 1  ⎠  ;  //重构项 j 在 D 中的支持度;
                               n
                             2∑ wp g  − 1
                                 g
                              g = 1

                  F ←
             3.     1  { j ∈  I  | .j s ≥  min_sup} ;  //得到重构频繁 1-项集集合;

             4.   for (k=2;  F k − 1  ≠ ∅ ; k++):




                                                                               ;
                 (a)   C ← apriori  _ gen (F k − 1 ,min_sup) ;  //由 F k − 1  生成候选频繁 k-项集集合 C
                       k
                                                                              k
                 (b)  for each transaction t∈D′,   //扫描 D′记录每个候选 k-项集的支持计数
                       for each candidate  cC∈    k  ,
                         if c⊆t then c.S′++;
                 (c)  for each candidate  cC∈    :
                                        k
                                . cS′
                     (i)   . cs′ ←  ;   //得到候选频繁 k-项集 c 在 D′中的支持度;
                               | D  |
                                     ⎛  n                  ⎞
                                                        k
                               . ′ −
                               cs    ⎜  ⎜  g (2p g  − ∑∑  1) (1− w  || f  p g ) ( − f | |)  ⎟  ⎟  . f s
                           . ←
                     (ii)  cs      f  ⊂  c  = ⎝  1         ⎠ g  ;   //重构 c 在 D 中的支持度;
                                          n
                                         ∑ w g (2p g  − 1) k
                                         g = 1

                      F ←
                 (d)      {c C∈  | .c s ≥ min_sup} ;  //得到重构频繁 k-项集集合;
                       k      k

             5.   Return  F ← ∪  F  ;
                              k  k
         3    实验评价
         3.1   实验数据
             分别用人工合成购物篮数据集、真实购物篮数据集进行实验评价.
             人工合成购物篮数据集.人工合成购物篮数据集 D 由 IBM Almaden 生成器生成,生成器参数为 T=3,
         I=4,|D|=100K,N=10,即事务平均长度为 3,频繁项集的平均长度为 4,总事务数为 100K,总项数为 10.直接生成的
         数据集为项集形式,可将其转化为 0,1 布尔表示的数据集;
             真实购物篮数据.真实购物篮数据集 D 为某食品超市的购物数据 basket.txt,事务平均长度为 3,总事务数
         940, 总项数 为 11, 包括 fruitveg,freshmeat,dairy,cannedveg,cannedmeat,frozenmeal,beer,wine,softdrink,fish,
         confectionery.该数据可从以下网址获取:https://download.csdn.net/download/lol000/8693253(2020 年 2 月).
         3.2   实验方法
             •   第 1 步,挖掘原始数据集 D.
             针对多个不同的最小支持度阈值,分别运用 Apriori 算法对数据集 D 进行挖掘,记录每次挖掘得到的所有频
         繁项集和其支持数.
             •   第 2 步,生成分组多参数随机化数据集.
             对数据集 D 进行分组多参数随机化干扰,生成干扰后的数据集 D′.具体地讲,对数据集 D 按行分为 Group1~
         Group5 共 5 组数据,这 5 组数据所占的比例分别为 w 1 =30%,w 2 =20%,w 3 =20%,w 4 =20%,w 5 =10%,对应的随机化参
         数分别为 p 1 =1,p 2 =0.9,p 3 =0.8,p 4 =0.7,p 5 =0.6.即:第 1 组数据保持不变;第 2 组数据以 0.9 的概率保持原来的值,以
         0.1 的概率取反;第 3 组~第 5 组数据分别以 0.8,0.7,0.6 的概率保持原值,以 0.2,0.3,0.4 的概率取反.直观地,数据
         集 D 对应的分组多参随机化模型参数设置见表 4.
             以上 5 组数据所占比例,大致依据本文开始提到的 AT&T 实验室 1999 年隐私态度调查报告中不同用户的
   266   267   268   269   270   271   272   273   274   275   276