Page 245 - 《软件学报》2021年第11期
P. 245

咸鹤群  等:基于阈值动态调整的重复数据删除方案                                                        3571


                 成随机数的方式来模拟不同用户对某一上传数据的隐私分数评分.所有实验均重复进行 20 次,取平均值作为最
                 终结果.
                 5.1   数据集
                    针对不同数据具有不同理想阈值这一问题,本文对数据的整体隐私分数和阈值变化进行了对比实验.实验
                 分别采用了 3 组不同范围的随机数模拟用户对不同数据的隐私评分.每个数据集由 100 个数据组成:第 1 个数
                 据集由 100 个来自区间[5~15]上的随机数组成,模拟用户对某隐私程度较低数据的隐私评分;第 2 个数据集由
                 100 个来自区间[90~100]上的随机数组成,模拟用户对某些隐私度极高的数据的隐私评分;第 3 个数据集由来自
                 区间[1~100]的随机数组成,模拟上传用户对某一数据的隐私评分不统一的情况.
                    在方案性能对比实验中,我们选取 1 000 个大小为 10MB 的文件作为上传数据,其中,隐私程度较低的数据
                 与隐私程度较高的数据所占比约为 3:2.其他对比方案采用统一流行度阈值,并设置为 T=7.
                 5.2   隐私分数与阈值大小实验分析
                    首先对上述 3 组实验数据集的数据分别执行数据上传和阈值动态调整的模拟操作,对数据的整体隐私分
                 数和阈值大小的变化进行对比分析.
                    图 4~图 6 是由区间为[5~15]的数据集得出的,其中,
                    •   图 4 为整体隐私分数随上传用户数量的变化图,该图中的曲线是由 100 个数据点连接而成,每个点的横
                        坐标为该数据某次上传操作之后,CSP 根据用户的反馈对整体隐私分数的调整结果.其纵坐标为当前
                        上传该数据的用户数量.
                    •   图 5 为阈值 T 的动态调整值与整体隐私分数 PR 的关系图,该图中的曲线展示了数据的阈值随着整体
                        隐私分数的变化过程,图中每个点的横坐标的含义与图 4 相同,纵坐标为根据整体隐私分数计算得到
                        的该数据的动态阈值,计算公式为公式(6),其中,a 的值可根据需求自行调整.本实验中,取 a=7.
                    •   图 6 是将图 4 与图 5 放在同一个坐标系下叠加的结果.两条曲线的所有交点的纵坐标最小值处即为实
                        际发生重复数据删除的阈值,大小为 T=9.
                    同理,图 7~图 9 是由区间为[90~100]的数据集得出的.在该模拟场景中,数据未被执行重复数据删除操作(图
                 9 的两条曲线没有交点).
                    图 10~图 12 是由区间为[0~100]的数据集得出的,其实际重复数据删除的阈值大小为 T=37.

                                                     pr动态曲线                                     T动态曲线
                                                                 9.0

                     100
                                                                 8.8
                     上传用户数量  50                                 T  8.6

                                                                 8.4

                                                                 8.2
                       0
                                                                 8.0
                           7       8      9       10                  7       8       9      10
                                      pr                                          pr
                        Fig.4    Privacy score with the number of   Fig.5   Relationship between threshold
                                upload users (5~15)                      and privacy score (5~15)
                     图 4   隐私分数随上传用户数量的变化(5~15)                     图 5   阈值与隐私分数的关系(5~15)
   240   241   242   243   244   245   246   247   248   249   250