Page 247 - 《软件学报》2021年第11期
P. 247

咸鹤群  等:基于阈值动态调整的重复数据删除方案                                                        3573


                                                                          动态阈值
                                                                          上传用户数量
                                          150
                                         动态阈值/上传用户数量  100




                                          50


                                           0

                                              50  55   60  65  70   75  80
                                                           pr
                                          Fig.12    Actual deduplication threshold (1~100)
                                                 图 12   实际删重阈值(1~100)
                    图 4 中曲线表示所有上传用户都认为某上传数据具有较低的隐私程度,但在隐私评分的具体数值大小上
                 仍然存在较小的分歧.我们假设最终每个用户会取来自区间[5~15]的一个数值作为其隐私评分,在上传用户数
                 量较少时,用户上传的隐私评分对整体隐私分数影响较大;随着上传用户数量的增加,单个用户的隐私评分对整
                 体隐私分数影响越来越小;最终,该数据的隐私分数大小稳定在 10 左右.同样地,图 7 代表整体隐私分数评分较
                 高的情况,最终整体隐私分数稳定在 95 左右.图 10 曲线代表的是所有用户对某数据隐私评分不统一时的情况:
                 上传用户数量较少时,隐私分数调整波动较大;随着上传用户数量的不断增加,单个用户的隐私评分对整体隐私
                 分数影响越来越小;数据的整体隐私分数最终会稳定下来.
                    综合图 4、图 7 和图 10 可以得出,每次上传操作都会对数据的整体隐私分数 PR 带来影响.上传用户数量越
                 少,单个用户上传数据操作对隐私分数的影响越大.当样本数量足够大时,随着用户数量的增加,数据的整体隐
                 私分数会逐渐趋于稳定.图 10 的结果进一步说明,数据最终的隐私分数的大小是由多数用户意愿决定的.该数
                 值只与数据本身的性质和用户对其隐私的在意程度有关,在用户数量较多的情况下,个别用户的态度(体现为评
                 分)对其影响甚微.
                    由图 5、图 8 和图 11 中曲线可知,数据的阈值与整体隐私分数成正比关系.
                    由图 6 可知,当数据隐私度很低时,其实际执行重复数据删除的阈值很小.这说明本方案可以有效节约云端
                 存储空间.
                    由图 9 可知,当数据信息隐私度较高时,两条曲线之间没有交点,即该数据未被执行重复数据删除操作.这说
                 明本方案可以避免统一阈值删重所导致的隐私数据泄露,更有效地保护了隐私数据的安全.
                    由图 10~图 12 可以看出,当上传用户对某数据的隐私态度存在较大分歧时,系统根据多数人的隐私评分,为
                 数据确定一个合适的阈值.
                    因此,从总体上看,该方案具有较高的适用性.
                 5.3   方案性能比较
                    通过上传 1 000 个大小为 10MB 的数据,计算本方案所需的总时间开销,并与 prefectDedup 方案、普通的基
                 于流行度阈值的重复数据删除方案和 XU-CDE 这 3 种方案进行比较.实验重复进行 10 次,取平均值作为最终结
                 果.实验结果如图 13 所示.在数据加密阶段,4 个方案的时间开销相差不大;在查询阶段,本方案与其他区分流行
                 度的方案相比具有优势.最终,与其他方案相比,本方案在提高了重复数据删除操作安全性的同时,并未产生额
                 外的时间开销.
   242   243   244   245   246   247   248   249   250   251   252