Page 222 - 《软件学报》2021年第11期
P. 222

3548                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                    TDC_CLDP 基于 CLDP 隐私模型,其输入为:用户的事务数据 t,项集域 I,CDLP 的隐私参数α,输出的事务数


                 据长度 k;输出为:事务数据 t′,其长度为 k=|t′|.TDC_CLDP 首先对 t 进行预处理得到 t ,使得 ||t =          m ,然后从所有的
                 候选项集中随机选择一个 t′,t′被选中的概率为
                                                       α
                                                     ⎛  −⋅ dist (, )t t′ ⎞
                                                   exp ⎜        ⎟  Ω                                  (7)
                                                     ⎝     2    ⎠
                 其中,Ω为概率泛化因子,其定义如公式(8)所示.
                                             −  α  0 ⋅  k ⎛  −  α  ⋅  (k −  inter )  ⎞
                                         Ω =  e  2  ⋅  C +  k  ∑  e ⎜  2  ⋅  (C inter  ⋅  C k − inter ) ⎟  (8)
                                                   d    1 ⎝  ⎜     m    d   ⎟  ⎠

                                                *    inter=
                                                                **
                    公式(8)中的*部分代表相似度为 0 的子空间,**部分代表相似度大于 0 的子空间.由于其样本空间大小为
                 C k dm  ,当 d 与 m 很大时,运行的时间与空间是指数级的.因此,TDC_CLDP 将候选项集总的样本空间划分为 k+1
                   +
                 个样本子空间,每个样本子空间中的候选项集与 t 的相似度大小 inter 是相同的,其范围为[0,k],见表 2.
                                      Table 2  Subspace and corresponding sampling probability
                                               表 2   子空间及对应的抽样概率
                                           样本子空间                 每个子空间的概率
                                       max(| |,| |)ts
                                        ∑  [ i t =  i s  ] 0,=    inter=0
                                        i= 1
                                       max(| |,| |)ts             −⋅ (k − inter )
                                                                  α
                                        ∑  [ i t =  i s  ] 1,=    inter=1   e  2  ⋅  (C inter  ⋅  C k −−  )
                                                                              1 inter
                                        i= 1                p inter =    m   d − 1
                                              …                          Ω
                                       max(| |,| |)ts
                                        ∑  [ i t =  i ] s =  , k   inter=k
                                        i= 1
                                           注:每个子空间中的候选项集与 t 的相似度大小相同

                    TDC_CLDP 方法中:第 3 步~第 6 步对事务数据作等长处理,使得所有的事务数据 t 的长度均为 m,添加的项
                 从集合{a d+1 ,…,a d+m }中选择;第 9 步基于 uniform_random(0.0,1.0)生成概率 r;第 12 步~第 15 步基于 r 与 p inter 确

                                                                                                 t
                 定子样本空间;最后,第 16 步、第 17 步利用 sample 抽样函数随机从 t 中抽取项的数目为 inter,从 I − 中抽取
                 项的数目为 k−inter,拼接后返回给用户,由用户发送给服务器.TDC_CLDP 方法的时间复杂度为 O(d),与项集域
                 的大小呈线性关系.
                    定理 1.  基于 CLDP 模型与指数机制实现的 TDC_CLDP 方法满足α-CLDP 约束.
                    证明:因为 TDC_CLDP 方法是对 TDC_CLDP_Cand 方法的具体实现,本质过程为指数机制的具体实现,针对
                 原始数据 t,以概率 p 随机选择一个候选项集 t′,概率 p 为
                                                          score ()t′
                                                    p =                                               (9)
                                                      ∑ s CandI∈  score () s
                    命名 TDC_CLDP 方法的随机机制为Φ,则基于 t 得到 t′的概率为
                                                              −⋅ dist (, )t t′
                                                              α
                                               Pr[ ( ) tΦ  =  ] t′ =  e  2 −⋅ dist t (, ) z          (10)
                                                                  α
                                                          ∑  z CandI e  2
                                                            ∈
                    为了证明 TDC_CLDP 满足α-CLDP 约束,需要证明公式(11)成立:
                                                  Pr[ ( )tΦ  =  ] t′  α⋅ dist (,t 12 )t
                                                       1    ≤ e  2                                   (11)
                                                  Pr[ ( ) =  ] t′
                                                    Φ
                                                      t
                                                       2
                    基于指数机制的定义以及公式(10),可以得到二者的比值为
   217   218   219   220   221   222   223   224   225   226   227