Page 241 - 《软件学报》2021年第11期

P. 241

咸鹤群等:基于阈值动态调整的重复数据删除方案 3567

×
P = | R i | | R j | (3)
ij
N n
其中,N 为数据项个数,n 为受测用户个数.以上可见度的计算方法是从统计学的角度出发,对所有可能的反应矩
阵上根据概率分布进行的采样.实际上,事实可见度是由 V(i,j)=P ij ×1+(1−P ij )×0=P ij 计算得出.
2.4 数据的隐私分数
数据的隐私分数是数据的整体隐私程度的数值化表示.受测用户 j 由数据 i 产生的隐私分数表示为 PR(i,j),
其计算公式为
PR(i,j)=β i ⊗V(i,j) (4)
其中,操作符⊗表示任何关于敏感度和可见度的单调递增的函数组合.
2.5 双线性映射
设(G 0 ,+),(G 1 ,⋅)是 p 阶的加法循环群和乘法循循环群,其中,p 是大素数,α是群 G 1 的单位元.Z p 是模 p 的剩余
∗
类整环, Z 是 Z p 的可逆元集合,定义双线性映射 e:(G 0 ,G 0 )→G 1 ,并满足 3 个性质 [25] .
p
∗
b
a
(1) 双线性.∀P,Q∈G 0 且 ,ab∈ Z ,都有 e(P ,Q )=e(P,Q) ;
ab
p
(2) 可计算性.∀P,Q∈G 0 ,e(P,Q)是可计算的;
(3) 非退化性.∃P,Q∈G 0 ,使得 e(P,Q)≠α.
3 方案设计
3.1 方案概述
当用户向 CSP 上传加密数据时,CSP 可借助椭圆曲线生成数据的查询标签来检查是否已存储该数据,并根
据数据库中的已知数据信息反馈给上传用户一个建议 PR.最终,用户将数据及其隐私分数的反馈一起上传给
CSP.CSP 重新聚合隐私分数,并为其更新阈值.根据阈值大小和数据的当前数量,CSP 决定是否对其进行重复数
据删除操作.本文假设所有上传用户均为真实可靠的,即不存在恶意用户干扰隐私分数的情况.方案共分为以下
3 个部分:隐私分数查询、文件上传、隐私分数计算和阈值更新,如图 2 所示.

基于阈值动态调整的
重复数据删除方案

3.隐私分数计算
1.隐私分数查询 2.文件上传
和阈值更新

Fig.2 Scheme design
图 2 方案设计

3.2 隐私分数查询
当用户向 CSP 上传数据时,用户可以查询上传数据的当前 PR.基于上下文的隐私分数查询方法是一种可选
的解决方案 [21] .上下文是指从一长串的文字或内容中分析得出的摘要以及大意,甚至可以是由整个上传数据整
理出来的具有代表性的关键字组合,其一般形式为(field1=value1,field2=value2,...).例如,某上传数据包含“Bob
用台式电脑在班级群中共享了本次期末考试成绩”,则归纳的上下文为(共享者=Bob,主题=期末成绩,观察者=同
班同学).
文献[21]中详细介绍了一种利用上下文进行数据隐私度查询的方案.用户在查询隐私度之前,将多个虚拟

236 237 238 239 240 241 242 243 244 245 246