Page 243 - 《软件学报》2021年第11期
P. 243

咸鹤群  等:基于阈值动态调整的重复数据删除方案                                                        3569


                    •   当 count(U F )<T 时,CSP 检查是否已经存在相同数据.
                        ¾    若为首次上传,用户 U 加密数据并上传至 CSP,同时给出自己对该数据隐私评分 PR U .CSP 记录
                             PR U ,存储加密后的对称加密密钥 K′ =    F  EX  3 ,K −  F  H ( ))F 和密文 c K =E(K F ,F),如图 3 中 a)部分所
                                                            (
                             示,其中,K F 是数据加密密钥.
                         ¾   若非首次上传,则 CSP 返回给用户对称加密密钥 K′ 和建议隐私分数 PR′.U 解密并计算获得 K F ,
                                                                     F
                             并用其加密 F,将密文 c K =E(K F ,F)和综合考量的隐私评分 PR U 一同上传至 CSP.CSP 动态更新 PR′
                             后删除新上传数据信息,并为 U 创建访问链接,如图 3 中 b)部分所示.
                    •   当 count(U F )=T 时,CSP 通知用户 U 进行收敛加密.U 上传收敛加密密文 c X =E(X,F),其中,X=H(F)+X 2 .
                        CSP 存储该密文.
                    •   当 count(U F )>T 时,CSP 告知用户进行客户端删重,并为 U 创建访问链接.
                 3.5   基于项目反应理论的隐私分数计算和阈值更新
                    本文采用基于项目反应理论的隐私分数计算方法                  [26] ,从而确保数据的隐私分数符合多数上传用户要求.
                    由于不同的上传数据 F之间是相互独立的,用于计算其隐私分数 PR的参数ξ=(α,β)可以独立计算,进而使得
                 PR 的计算能够并发执行.基于项目反应理论(IRT)的 PR 计算仍需要使用公式(3)来估计概率 P=prob{R(i,j)=1},
                 其中,R(i,j)为二值型矩阵,下文中直接用 R 表示.在云存储环境中,虽然没有受测试者和测试问题,但是有上传用
                 户和上传数据这两类对象.我们将上传用户 U 看作受测试者,上传数据 F 看作信息项.因此,用户的隐私倾向就对
                 应于受测试者的能力:通过隐私倾向参数θ,量化用户 U 对上传数据 F 隐私的在意程度.θ值越高,表示数据越开
                 放 [20] .如果我们假设上传数据 F 的隐私问题容易理解且具有完全相同的区分度,那么,问题区分度参数α就不再
                 是一个需要考虑的变量.因此,可以用常量替代或直接忽略不计.最后,我们用问题的难度参数β来代表数据信息
                 的敏感度,β≥0.
                    对于每个上传数据的参数ξ=(α,β),可以通过最大似然函数对其进行估计,如公式(5)所示.
                                                      N
                                                     ∏  P R (1 P−  ) 1 R−                             (5)
                                                      j= 1
                 其中,N 为上传同一数据 F 的用户总数,R 为二值型矩阵.具体的,用户上传数据 F 时会一同上传 PR U ,以代表自己
                 对上传数据隐私程度的评价.本实例在求敏感度β时,将 PR U 的值进行简单的推算作为隐私倾向参数θ,即
                    PR
                 θ =  U  .最终,在隐私倾向参数θ为已知量的基础上求得敏感度β.
                    100
                    根据上述过程可获知ξ=(α,β)的值,确定敏感度β的值.在此基础上,待上传数据 F 的总体隐私倾向θ F 也通过
                 上述似然函数搜索得出.具体的,本实例在敏感度β为已知量的基础上,选用牛顿-拉夫逊的拓展算法 NR_
                 Attitude_Estimation 算法来搜索似然函数或其对应的 log 似然函数,找到使其最大的隐私倾向参数θ F .最终,通过
                 公式(4)对其进行整合,得到建议隐私分数 PR′,用户 U 根据建议隐私分数 PR′调整并上传自己的隐私分数评分
                    [19]
                 PR U  .
                                                                   N
                                                                  ∑  PR (, )i j
                    而对于某一确定数据 F i 的综合隐私分数表示为 PR =                  j= 1   , 其中,j 为某上传用户的具体表示,
                                                                i     N
                 PR i ∈[0,1].
                    最终,CSP 根据每次数据上传结束后的隐私分数变化,结合公式(6)更新数据阈值.
                                                         a
                                                   T =        −  (a −  1)                             (6)
                                                    i
                                                        −
                                                      (1 PR i  ) 2
                 其中,a 为参数,其数值的大小可根据实际情况进行调整.
                    随着上传用户数量的增加,阈值变化逐渐趋于平稳,即 lim |T                i+ 1  − T i  | ε≤ (其中,ε为可忽略的值).在此,我们提
                                                               i→∞
                                             °
                 出理想阈值的概念.所谓理想阈值 T 是指每个文件具有的一个符合用户意愿的阈值.随着用户数量的增加,动态
   238   239   240   241   242   243   244   245   246   247   248