Page 241 - 《软件学报》2021年第11期
P. 241

咸鹤群  等:基于阈值动态调整的重复数据删除方案                                                        3567


                                                            ×
                                                     P =  | R i  | | R j  |                           (3)
                                                      ij
                                                          N    n
                 其中,N 为数据项个数,n 为受测用户个数.以上可见度的计算方法是从统计学的角度出发,对所有可能的反应矩
                 阵上根据概率分布进行的采样.实际上,事实可见度是由 V(i,j)=P ij ×1+(1−P ij )×0=P ij 计算得出.
                 2.4   数据的隐私分数
                    数据的隐私分数是数据的整体隐私程度的数值化表示.受测用户 j 由数据 i 产生的隐私分数表示为 PR(i,j),
                 其计算公式为
                                                     PR(i,j)=β i ⊗V(i,j)                              (4)
                 其中,操作符⊗表示任何关于敏感度和可见度的单调递增的函数组合.
                 2.5   双线性映射
                    设(G 0 ,+),(G 1 ,⋅)是 p 阶的加法循环群和乘法循循环群,其中,p 是大素数,α是群 G 1 的单位元.Z p 是模 p 的剩余
                        ∗
                 类整环, Z 是 Z p 的可逆元集合,定义双线性映射 e:(G 0 ,G 0 )→G 1 ,并满足 3 个性质      [25] .
                        p
                                              ∗
                                                         b
                                                      a
                    (1)  双线性.∀P,Q∈G 0 且 ,ab∈ Z ,都有 e(P ,Q )=e(P,Q) ;
                                                                ab
                                              p
                    (2)  可计算性.∀P,Q∈G 0 ,e(P,Q)是可计算的;
                    (3)  非退化性.∃P,Q∈G 0 ,使得 e(P,Q)≠α.
                 3    方案设计
                 3.1   方案概述
                    当用户向 CSP 上传加密数据时,CSP 可借助椭圆曲线生成数据的查询标签来检查是否已存储该数据,并根
                 据数据库中的已知数据信息反馈给上传用户一个建议 PR.最终,用户将数据及其隐私分数的反馈一起上传给
                 CSP.CSP 重新聚合隐私分数,并为其更新阈值.根据阈值大小和数据的当前数量,CSP 决定是否对其进行重复数
                 据删除操作.本文假设所有上传用户均为真实可靠的,即不存在恶意用户干扰隐私分数的情况.方案共分为以下
                 3 个部分:隐私分数查询、文件上传、隐私分数计算和阈值更新,如图 2 所示.


                                                     基于阈值动态调整的
                                                      重复数据删除方案





                                                                         3.隐私分数计算
                                      1.隐私分数查询          2.文件上传
                                                                          和阈值更新

                                                    Fig.2   Scheme design
                                                      图 2   方案设计

                 3.2   隐私分数查询
                    当用户向 CSP 上传数据时,用户可以查询上传数据的当前 PR.基于上下文的隐私分数查询方法是一种可选
                 的解决方案    [21] .上下文是指从一长串的文字或内容中分析得出的摘要以及大意,甚至可以是由整个上传数据整
                 理出来的具有代表性的关键字组合,其一般形式为(field1=value1,field2=value2,...).例如,某上传数据包含“Bob
                 用台式电脑在班级群中共享了本次期末考试成绩”,则归纳的上下文为(共享者=Bob,主题=期末成绩,观察者=同
                 班同学).
                    文献[21]中详细介绍了一种利用上下文进行数据隐私度查询的方案.用户在查询隐私度之前,将多个虚拟
   236   237   238   239   240   241   242   243   244   245   246