Page 247 - 《软件学报》2021年第11期
P. 247
咸鹤群 等:基于阈值动态调整的重复数据删除方案 3573
动态阈值
上传用户数量
150
动态阈值/上传用户数量 100
50
0
50 55 60 65 70 75 80
pr
Fig.12 Actual deduplication threshold (1~100)
图 12 实际删重阈值(1~100)
图 4 中曲线表示所有上传用户都认为某上传数据具有较低的隐私程度,但在隐私评分的具体数值大小上
仍然存在较小的分歧.我们假设最终每个用户会取来自区间[5~15]的一个数值作为其隐私评分,在上传用户数
量较少时,用户上传的隐私评分对整体隐私分数影响较大;随着上传用户数量的增加,单个用户的隐私评分对整
体隐私分数影响越来越小;最终,该数据的隐私分数大小稳定在 10 左右.同样地,图 7 代表整体隐私分数评分较
高的情况,最终整体隐私分数稳定在 95 左右.图 10 曲线代表的是所有用户对某数据隐私评分不统一时的情况:
上传用户数量较少时,隐私分数调整波动较大;随着上传用户数量的不断增加,单个用户的隐私评分对整体隐私
分数影响越来越小;数据的整体隐私分数最终会稳定下来.
综合图 4、图 7 和图 10 可以得出,每次上传操作都会对数据的整体隐私分数 PR 带来影响.上传用户数量越
少,单个用户上传数据操作对隐私分数的影响越大.当样本数量足够大时,随着用户数量的增加,数据的整体隐
私分数会逐渐趋于稳定.图 10 的结果进一步说明,数据最终的隐私分数的大小是由多数用户意愿决定的.该数
值只与数据本身的性质和用户对其隐私的在意程度有关,在用户数量较多的情况下,个别用户的态度(体现为评
分)对其影响甚微.
由图 5、图 8 和图 11 中曲线可知,数据的阈值与整体隐私分数成正比关系.
由图 6 可知,当数据隐私度很低时,其实际执行重复数据删除的阈值很小.这说明本方案可以有效节约云端
存储空间.
由图 9 可知,当数据信息隐私度较高时,两条曲线之间没有交点,即该数据未被执行重复数据删除操作.这说
明本方案可以避免统一阈值删重所导致的隐私数据泄露,更有效地保护了隐私数据的安全.
由图 10~图 12 可以看出,当上传用户对某数据的隐私态度存在较大分歧时,系统根据多数人的隐私评分,为
数据确定一个合适的阈值.
因此,从总体上看,该方案具有较高的适用性.
5.3 方案性能比较
通过上传 1 000 个大小为 10MB 的数据,计算本方案所需的总时间开销,并与 prefectDedup 方案、普通的基
于流行度阈值的重复数据删除方案和 XU-CDE 这 3 种方案进行比较.实验重复进行 10 次,取平均值作为最终结
果.实验结果如图 13 所示.在数据加密阶段,4 个方案的时间开销相差不大;在查询阶段,本方案与其他区分流行
度的方案相比具有优势.最终,与其他方案相比,本方案在提高了重复数据删除操作安全性的同时,并未产生额
外的时间开销.