Page 313 - 《软件学报》2025年第5期
P. 313

王源源 等: 本地差分隐私频率估计伪数据攻击及防御方法                                                     2213


                    在大数据时代, 隐私保护技术对于收集和分析敏感数据至关重要. 本地差分隐私                           (local differential privacy,
                 LDP) [1,2] 可以在数据采集过程中为用户隐私信息提供有效保护. LDP             在用户端对用户的原始数据进行编码、扰动,
                 达到保护隐私的效果. 然后, 用户将扰动后的数据发送给数据收集方, 数据收集方对所有用户的扰动数据进行聚
                 合, 估计出特定计算任务的结果, 例如频率估计值. LDP              模型框架如图     1  所示. 在  LDP  模型框架中, 即使数据收集
                 方不可信, 泄露了扰动后的用户数据, 用户隐私仍然可以得到保护. LDP                   被广泛部署在大规模数据收集系统中, 例
                 如, Google 在  Chrome 浏览器中部署了   RAPPOR  机制, 用来收集用户使用       Chrome 浏览器时的默认主页       [3] ; 苹果公
                 司在  iOS  和  Mac OS  设备中跟踪用户使用    Safari 浏览器访问的网站, 并收集用户对页面加载时自动播放视频的偏
                 好, 在这一过程中利用      LDP  进行隐私保护    [4] .

                                         用户1      扰动数据
                                         用户2     扰动数据
                                                                 聚合估计
                                                 扰动数据   数据收集方
                                         用户n
                                                 图 1 本地差分隐私模型框架

                    LDP  协议面临的一个重要问题是可能存在若干恶意用户向数据收集方发送伪造值. 对于数据收集方来说, 伪
                 造值和真实数据的扰动值都是添加噪声后的数据, 所以很难区分恶意用户和普通用户. 因此, 恶意用户精心设计的
                 伪造值可能会对估计结果造成严重影响. 在频率估计                 LDP  协议中, 攻击者可以通过伪造若干个用户数据, 使得数
                 据收集方对特定数据项的估算频率比其真实值高, 从而获得不正当利益. 例如, 《纽约时报》(New York Times) 报
                 道了亚马逊旗下众包市场         Mechanical Turk  上的企业雇佣员工, 以每条    25  美分的价格发布假五星级       Yelp  评论  [5] .
                    子集选择机制     [6,7] 和环机制  [8] 是具有最优效用的   LDP  频率估计机制. 为了对它们抗伪数据攻击能力进行深入
                 评估, 在本文中, 针对它们设计了攻击效用最大化的伪数据攻击方案. 攻击者可以向                        LDP  协议中注入假用户, 并利
                 用假用户向数据收集方发送精心设计的伪造数据. 攻击者的目标是提高目标项目的频率估计值. 子集选择机制中
                 用户可以向数据收集方发送          k 个数据, 本文为假用户设计的伪造数据支持尽可能多的目标项目. 在环机制中, 挑选
                                         h m  可以使尽可能多的目标项目映射值的覆盖区域存在交集, 从交集中为每个假用
                 最优的哈希函数      h m  , 哈希函数
                 户随机选取一个值, 发送给数据收集方. 本文从理论上和实验上证明了, 对于子集选择机制和环机制, 设计的方案
                 可以有效地提高目标项目的频率估计值. 并且, 本文设计了两种防御方法来防御伪数据攻击, 即后处理和限定阈值
                 方法. 后处理利用最值归一化压缩攻击效用. 在限定阈值方法中, 设置频率阈值                      τ , 如果某个项目的频率高于阈值         τ ,
                 对该项目进行标记, 将同时含有所有标记项目的用户视为假用户, 排除假用户后再次计算目标项目的频率估计值,
                 可以减小攻击效用. 实验结果表明, 本文的防御方法可以有效缓解伪数据攻击的负面影响.
                    概括地说, 本文的主要贡献如下.
                    ● 为了深入评估子集选择机制和环机制两种               LDP  协议的抗伪数据攻击能力, 针对它们设计了攻击效用最大
                 化的伪数据攻击方案.
                    ● 从理论上和实验上评估了对子集选择机制和环机制进行伪数据攻击的有效性, 结果显示本文设计的最大效
                 用攻击可以有效地提高目标项目的频率估计值, 证实了子集选择机制和环机制抗伪数据攻击能力弱.
                    ● 针对  LDP  协议的伪数据攻击提出了防御措施, 实验结果显示可有效缓解伪数据攻击的负面影响.
                    本文第   1  节介绍  LDP  协议伪数据攻击的相关工作. 第        2  节介绍本文所需的基础知识, 包括子集选择机制和环
                 机制. 第  3  节介绍本文设计的针对子集选择机制和环机制的攻击方法和攻击效用. 第                      4  节展示实验结果. 第    5  节介
                 绍针对   LDP  协议伪数据攻击的防御机制. 最后第          6  节总结全文.

                 1   LDP  机制伪数据攻击相关工作

                    在机器学习算法中, 攻击者可以利用伪数据攻击操纵数据训练, 通过一定的策略修改原始训练数据集, 或者向
   308   309   310   311   312   313   314   315   316   317   318