Page 216 - 《软件学报》2021年第11期
P. 216
3542 Journal of Software 软件学报 Vol.32, No.11, November 2021
α-CLDP. The experiments demonstrate that the transaction data collected in this study has higher utility than the state-of-the-art
approaches, and the privacy parameter setting is semantic.
Key words: privacy preserving; data collecting; transaction data; local differential privacy; privacy parameter
事务数据是项的集合,其中包含丰富的信息并可应用于不同的场景(如购买的商品、看过的电影记录、搜
索日志、网页浏览历史等).随着大数据技术的发展,海量的事务数据被收集,其中蕴含丰富的知识.数据收集者通
过数据分析(如协同过滤、关联规则等),基于得到的模型为用户提供更好的服务.
然而,事务数据中往往包含个人隐私信息,如:搜索网页时产生的搜索日志会泄露自己的健康状态、居住地
点等信息;网上购物时产生的购物记录将泄露自己所购买的隐私物品,甚至会泄露自己的购物习惯以及行为模
式;浏览网页时产生的 WEB 点击流将泄露自己的上网习惯等等.如果不采取任何保护措施直接收集并分析用户
的数据,将会导致个人隐私信息的泄露,造成严重危害.震惊世界的 AOL 日志隐私泄露事件已敲响警钟,因隐私
泄露所带来的困扰,将严重影响着人们的合法权益和生活质量.
目前,事务数据隐私保护发布是研究热点,大多数研究是将真实完整的事务数据发送到数据中心,并假设数
据中心或数据收集者是可信的.数据收集者对数据进行扰乱处理后,发布满足差分隐私约束的数据集或相关统
计信息,该方法统称为中心化差分隐私技术.尽管数据收集者宣称不会泄露或窃取用户的敏感信息,但在商业或
利益的驱使下,用户隐私很难得到保证,因此,假设数据中心或数据收集者是可信的这一点不切实际.
本地差分隐私(local differential privacy,简称 LDP)技术是一种本地化的数据收集方法,与中心化差分隐私
不同的是,其针对的是不可信的第三方数据收集者.客户端基于 LDP 在本地独立对数据进行随机响应,然后再将
扰乱后的数据发送给数据收集者,即数据收集者得到的数据是不完整的用户数据,但又保留了一定数据统计信
息,具有较好的数据效用性.另外,LDP 避免了大规模计算以及与数据中心频繁交互的通讯代价,非常适用于资
源受限的客户端,如移动设备、无线传感器等,目前已在工业界得到推广应用,包括微软、Google、Apple 等公司,
[1]
均已将 LDP 嵌入到应用中 .
基于 LDP 的数据隐私保护的已有研究中,主要集中于类型数据、数据数值、离散数据等.事务数据由于其
应用非常广泛,一直以来都是研究的难点与重点.然而,由于事务数据高维、稀疏以及长度不等的特性,导致事务
数据的研究往往比常规数据要复杂得多.目前有许多基于 LDP 的工作对事务数据的内容(项)以及长度进行了
有效的保护,这些工作首先对事务数据作等长处理,然后对事务数据进行子集抽样.文献[2]提出的 PrivSet 方法
就是其中的典型代表,该方法设计了一种效用性函数,然后基于一种高效的随机化方法得到扰乱后的事务数据,
达到了非常好的效果与效率.受 PrivSet 方法的启发,本文基于压缩的本地差分隐私(condensed local differential
privacy,简称 CLDP)提出一种新的事务数据收集方法 TDC_LDP.首先设计一种新的候选项集的分值函数,然后
基于指数机制从候选项集中随机抽取一个项集.由于本文提出的分值函数与 PrivSet 的效用性函数相比保留了
更多的信息,因此整体效果比 PrivSet 方法要好.
本文的主要贡献如下:
(1) 提出了一种新的候选项集的分值函数,基于该函数为每个候选项集打分,并将候选项集的样本空间划
分为多个子空间,其中,相同分值的候选项集位于同一个子空间;
(2) 抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者,同时保证了项
支持度计数与频繁项集挖掘的效用性;
(3) 考虑到隐私参数的设置困难,为了直观地设置隐私参数,基于 MPC 攻击模型,提出一种启发式隐私参
数设置策略.
本文第 1 节介绍相关工作.第 2 节介绍本文相关的预备知识.第 3 节对 TDC_LDP 进行详细描述.第 4 节进
行理论分析以及介绍隐私参数设置策略.第 5 节进行实验并分析实验结果.第 6 节是本文的总结.
1 相关工作
事务数据隐私保护收集涉及到事务数据隐私保护、隐私参数设置策略等,本节简要介绍并总结相关工作.