Page 269 - 《软件学报》2021年第12期
P. 269

郭宇红  等:分组随机化隐私保护频繁模式挖掘                                                           3933


         就可根据文献[22]中的公式(3):
                                                                k
                                                               2 − 1
                                S =    A  a  k  C′  0  a  k  C′ +  1  +  ... a  k  k C′ +  k  =  ∑  a  k  C′  j  (1)
                                           2 −
                                              , 11
                                    2 −
                                      1,0
                                                          1 2 −
                                                             1
                                                     2 −
                                                       1,2 −
                                                                j= 0  2 −  1, j

                                                                                −
                                                           k
                                                                                1
         估算出项集 A 的重构支持计数 S .而公式(1)中, a          2 − 1, j  (j=0,1…,2 −1)为矩阵 P k 的逆矩阵 P 中的最后一行元素,
                                                                               k
                                                k
                                   A
          C′ 为 A 的第 j 个子集在 D′(I 1 …I k )中的净计数(即 D′(I 1 …I k )中恰等于第 j 个子集的事务数).因此,只要求出变换
           j
                                                                             1
                                                                            −
         概率矩阵 P k ,就可求得任意项集的重构支持计数和支持度了.因为求得 P k 就可得到 P ,进而得到 a ij .
                                                                            k
         2.2.2    变换概率矩阵
             根据文献[22]表 1,易推出单参数随机化 4-项集的变换概率矩阵,见表 2.
                                  Table 2    Transition probability matrix P 4  of mask
                                         表 2   mask 变换概率矩阵 P 4
                                                    0      1    …    15
                                                   0000  0001   …   1111
                                                   Φ      I 4   …   I 1I 2I 3I 4
                                                         3
                                   0  0000   Φ     p   4  p (1−p)  …  (1−p)  4
                                                                       3
                                                  3
                                   1  0001   I 4   p (1−p)  p   4  …  (1−p) p
                                  …    …     …     …      …     ...  …
                                  15  1111  I 1I 2I 3I 4   (1−p)  4  p(1−p) 3  …  p   4
             对于表 1 的分组多参随机化,如何求得变换概率矩阵 P 呢?文献[22]的公式(5)给出了 P N/g 模型 p ij 的计算公
         式.P N/g 模型每个分组记录数相同,而本文表 1 每个分组记录数不同,但仔细分析发现,文献[22]的公式(5)同样适
         用于分组记录数不同的随机化.不过,文献[22]的公式(5)各组权重角标所用的组号 i,容易  与 p ij 中的角标 i 混淆,
         本文使用 w g 和 p g ,分别表示第 g 个分组所占的比例权重和对应的随机化参数,得到 GR-PPFM 方法中 k-项集 A
                   k
                k
         对应的 2 ×2 变换概率矩阵 P k 中的元素值:
                                            n
                                        p ij  =  g  g r  (1− ∑ w p  p g ) k −r  (0≤≤r  k ).
                                            g = 1
             例如表 1 中的分组随机化,事务“0000”转变“0000”的概率为
                         5
                       =p
                     00 ∑ w p g 4 (1−  g  ) = p  0  0.3 1×  4  +  0.2 0.9×  4  +  0.2 0.8×  4  +  0.2 0.7×  4  +  0.1 0.6×  4  =  0.57412;
                            g
                        g = 1
             而“0001”(对应事务{I 4 })转变为“1110”(对应事务{I 1 I 2 I 3 })的概率为
                         5
                     1,14 ∑ w p g 0 (1−  g ) = p  4  0.3 0×  4  +  0.2 0.1×  4  +  0.2 0.2×  4  +  0.2 0.3×  4  +  0.1 0.4×  4  =  0.00418.
                       = p
                            g
                         g = 1
             这样便可得到 4-项集{I 1 I 2 I 3 I 4 }对应的 16×16 变换概率矩阵 P 4 中的所有元素,见表 3.
                                Table 3    Transition probability matrix P 4  of GR-PPFM
                                       表 3   GR-PPFM 变换概率矩阵 P 4
                                             0            1       …        15
                                            0000         0001     …       1111
                                             Φ            I 4     …      I 1I 2I 3I 4
                                            5   4     5                 5      4
                          0  0000   Φ      ∑ wp g     ∑ wp 3 g (1− p g )  …  ∑ w g (1− p g )
                                                         g
                                              g
                                           g = 1      g = 1            g = 1
                                         5               5  4          5
                                                                               3
                          1  0001   I 4   ∑ wp g 3 (1− p g  )  ∑ wp g  …  ∑ w g (1− p g ) p
                                                                                g
                                            g
                                                           g
                                         g = 1          g = 1         g = 1
                         …    …     …        …            …        ...     …
                                          5           5                   5  4
                                                              3
                         15  1111  I 1I 2I 3I 4   ∑ w g (1− p g )  4  ∑ w g  (1− p g ) p g  …  ∑ wp g
                                                                            g
                                         g = 1        g = 1              g = 1



                                        −
                                         1
             在得到矩阵 P k 后,就可根据 C =       k P ⋅ C′ ,求得 k-项集 A 的支持计数了,其支持计数恰等于向量 C 中的最后
                                           A
                                                                                        A
                                    A
   264   265   266   267   268   269   270   271   272   273   274