Page 218 - 《软件学报》2021年第11期
P. 218

3544                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                 1.1.2    本地化
                    上述中心化的隐私保护方法假设数据中心是可信的,然而真实环境下,由于利益的驱使,数据中心上的真实
                 数据难免会由于各种原因泄露出去.基于本地差分隐私模型                     [21,22] 的本地化方法假设数据中心是不可信的,用户
                 在本地对数据进行随机响应          [23] 后发送给数据中心.因此,数据中心收集的用户数据不是真实的,但保留了统计性
                 质.随机响应技术也常用于事务数据的隐私保护发布,文献[24]针对个性化隐私要求,将随机响应响应技术应用
                 于频繁项集挖掘.文献[25]基于随机响应技术提出一种γ-增强机制,保证攻击者对某个隐私信息的先验与后验概
                 率在一个指定的区间内.
                    本地差分隐私模型已成功应用于工业界中,包括 Google 的 Chrome 浏览器                   [21,22] 、Apple 的 iOS、微软的
                 Windows 10 系统中 [26] 都基于 LDP 收集用户的隐私数据,并进行统计与分析,包括均值计算、直方图统计等.
                    本地差分隐私模型在不同数据类型的收集中也有广泛的研究与应用,如类型数据                             [27,28] 、位置数据 [29,30] 、事
                 务数据  [2,31−33] .特别地,文献[33]提出一种两阶段的频繁项集估计机制:第 1 阶段为分布估计阶段,而第 2 阶段为分
                 布估计改进阶段.文献[2]认为文献[33]对每个项均有一个隐私预算,加入了过多的噪音.文献[2]基于指数机制提
                 出了一种高效的候选项集抽样算法,其中,每个候选项集的抽样概率与原始数据的交集有关,如果有交集,则效
                 用性函数为 1,否则为 0.
                    压缩的本地差分隐私模型          [29] 将距离度量的概念引入差分隐私模型,基于距离矩阵随机响应一个值.文献
                 [29]提出了 Geo-indistinguishability 的概念,即位置不可识别,从真实位置的相邻位置中,基于与真实位置的距离
                 矩阵随机响应一个地点,能有效保护用户的真实位置,且保证位置信息的效用性,在一些对精确位置要求不高的
                 应用中(如天气预报)取得了很好的效果.类似的,文献[34]基于距离矩阵提出了压缩的本地差分隐私(condensed
                 local differential privacy,简称 CLDP)概念,对序数与非序数的小样本数据的长度与内容提供了有效的保护,在小
                 样本的统计应用中效用性较高,且实验效果优于 LDP 模型.
                 1.2   隐私参数设置策略
                    差分隐私系列模型的隐私参数ε或α是隐私模型的重要参数,用于决定噪声的添加量以及度量隐私保护的
                 程度.隐私参数的设置依赖于实验或经验,大多数情况下没有明确的指导语义.
                    Lee 等人提出一种ρ差分可识别(ρ-differential identifiability) [35] 的概念,可以基于ρ差分可识别设置隐私参数
                 ε,添加的噪声限定攻击者在获得分析结果后推断目标受害者敏感值的概率不高于ρ.但是ρ差分可识别依赖于
                 个体的先验分布,并需要假设预先知道所有可能的值及数目.欧阳佳等人                         [36] 基于(ρ 1 ,ρ 2 )隐私模型 [37] 提出一种启
                 发式的隐私参数ε设置策略,分析隐私参数ε与(ρ 1 ,ρ 2 )的内在联系,实现噪声量的添加由(ρ 1 ,ρ 2 )决定.文献[34]中通
                 过最大后验置信度(maximum posterior confidence,简称 MPC)将 CLDP 与 LDP 联系起来,提出一种基于 LDP 的
                 隐私参数ε设置 CLDP 的隐私参数α的方法,但在本地差分隐私模型下,并没有解决隐私参数的启发式设置问题.
                 1.3   相关工作总结
                    综上所述,差分隐私系列模型在隐私保护研究领域得到了广泛的发展与应用,其中,本地差分隐私模型由于
                 对数据中心假设不可信,已在工业界中得到推广.压缩的本地差分隐私模型由于将距离的概念引入,也开始得到
                 相应的关注与研究,而隐私参数的设置问题研究相对较少.本文受文献[2]启发,基于文献[34]提出的 CLDP 模型,
                 将候选项集与原始数据的相似度作为距离函数的分值,提出一种新的基于压缩的本地差分隐私模型的事务数
                 据收集方法,并基于 MPC 攻击模型提出一种新的隐私参数的设置策略,用于从启发式的角度设置隐私参数.

                 2    预备知识

                 2.1   事务数据(transaction data)
                    事务数据是一种无结构化数据,见表 1.与关系型数据相比,其共同点是事务数据库 D 同样由记录 t 1 ,t 2 ,
                 t 3 ,…,t n 组成;不同点是每条记录称为事务,为任意项的集合,其中,I 为整个项集域,定义为 I={a 1 ,a 2 ,a 3 ,…,a d },d=|I|
                 为项集域的长度.事务数据的例子有很多,如包含多个搜索关键词的 WEB 查询记录、包含已购买物品的购物记
   213   214   215   216   217   218   219   220   221   222   223