Page 245 - 《软件学报》2021年第11期
P. 245
咸鹤群 等:基于阈值动态调整的重复数据删除方案 3571
成随机数的方式来模拟不同用户对某一上传数据的隐私分数评分.所有实验均重复进行 20 次,取平均值作为最
终结果.
5.1 数据集
针对不同数据具有不同理想阈值这一问题,本文对数据的整体隐私分数和阈值变化进行了对比实验.实验
分别采用了 3 组不同范围的随机数模拟用户对不同数据的隐私评分.每个数据集由 100 个数据组成:第 1 个数
据集由 100 个来自区间[5~15]上的随机数组成,模拟用户对某隐私程度较低数据的隐私评分;第 2 个数据集由
100 个来自区间[90~100]上的随机数组成,模拟用户对某些隐私度极高的数据的隐私评分;第 3 个数据集由来自
区间[1~100]的随机数组成,模拟上传用户对某一数据的隐私评分不统一的情况.
在方案性能对比实验中,我们选取 1 000 个大小为 10MB 的文件作为上传数据,其中,隐私程度较低的数据
与隐私程度较高的数据所占比约为 3:2.其他对比方案采用统一流行度阈值,并设置为 T=7.
5.2 隐私分数与阈值大小实验分析
首先对上述 3 组实验数据集的数据分别执行数据上传和阈值动态调整的模拟操作,对数据的整体隐私分
数和阈值大小的变化进行对比分析.
图 4~图 6 是由区间为[5~15]的数据集得出的,其中,
• 图 4 为整体隐私分数随上传用户数量的变化图,该图中的曲线是由 100 个数据点连接而成,每个点的横
坐标为该数据某次上传操作之后,CSP 根据用户的反馈对整体隐私分数的调整结果.其纵坐标为当前
上传该数据的用户数量.
• 图 5 为阈值 T 的动态调整值与整体隐私分数 PR 的关系图,该图中的曲线展示了数据的阈值随着整体
隐私分数的变化过程,图中每个点的横坐标的含义与图 4 相同,纵坐标为根据整体隐私分数计算得到
的该数据的动态阈值,计算公式为公式(6),其中,a 的值可根据需求自行调整.本实验中,取 a=7.
• 图 6 是将图 4 与图 5 放在同一个坐标系下叠加的结果.两条曲线的所有交点的纵坐标最小值处即为实
际发生重复数据删除的阈值,大小为 T=9.
同理,图 7~图 9 是由区间为[90~100]的数据集得出的.在该模拟场景中,数据未被执行重复数据删除操作(图
9 的两条曲线没有交点).
图 10~图 12 是由区间为[0~100]的数据集得出的,其实际重复数据删除的阈值大小为 T=37.
pr动态曲线 T动态曲线
9.0
100
8.8
上传用户数量 50 T 8.6
8.4
8.2
0
8.0
7 8 9 10 7 8 9 10
pr pr
Fig.4 Privacy score with the number of Fig.5 Relationship between threshold
upload users (5~15) and privacy score (5~15)
图 4 隐私分数随上传用户数量的变化(5~15) 图 5 阈值与隐私分数的关系(5~15)