Page 316 - 《软件学报》2025年第5期
P. 316

2216                                                       软件学报  2025  年第  36  卷第  5  期



                                                    P f = E[P[z ∈ C v |x ]] = w                       (9)
                                                                ′
                    根据真实覆盖概率       P t  和虚假覆盖概率   P f  , 可以得到  z 在  x 的覆盖区域  C v  的概率  P[z ∈ C v ] :

                                                                                                     (10)
                                                 P[z ∈ C v ] = f x · P t +(1.0− f x )· P f
                 其中,   f x  表示项目  x 的频率,   x ∈ {1,...,d} P[z ∈ C v ] 表示用户提交的扰动数据  z 在区域  C v  内的概率, 将  P[z ∈ C v ] 记为
                                                .
                                                            ˜  . 项目          ˆ  如下:
                 f x ˜  , 数据收集方可以根据用户发送的数据直接统计得到            f x   x 的估计频率    f x

                                                            ˜
                                                         ˆ
                                                        f x =  f x − P f                             (11)
                                                            P t − P f
                 可以验证估计值      f x ˆ  是真实项目分布   f x  的无偏估计:

                                                        [ ]
                                               ˜
                                             [      ]    ˜
                                       [ ]     f x − P f  E f x − P f  f x P t +(1− f x )P f − P f
                                         ˆ
                                      E f x = E      =         =                = f x                (12)
                                              P t − P f  P t − P f   P t − P f
                                                    1              1        1
                                               w =             P t =  P f =     , 因此总方差为:
                    环机制处理类别数据时, 覆盖参数                   , 可以得到        和
                                                  1+e              2      1+e
                                                     ε                        ε
                                                         ˜
                                                       (      )
                                     ∑ d    ( )  ∑ d     f x − P f  1   ∑ d    ( )
                                             ˆ
                                         Var f x =   Var       =            Var f x ˜
                                       x=1         i=1  P t − P f  (P t − P f ) 2  x=1
                                                    1   ∑ d [                      ]
                                               =             f x P t (1− P t )+(1− f x )P f (1− P f )
                                                 (P t − P f ) 2  x=1
                                                    1   [                    ]
                                               =         P t (1− P t )+(d −1)P f (1− P f )
                                                 (P t − P f ) 2
                                                     4de ε
                                               = 1+                                                  (13)
                                                     ε
                                                   (e −1) 2

                 2.4   问题定义
                    本文中, 假设攻击者可以向         LDP  机制中注入一些假用户, 这些假用户可以向数据收集方发送伪造的扰动数
                 据, 如图  2  所示. 这一攻击具有现实意义, 它可以提高非频繁项目的频率, 改变                  top-k 频繁项集, 造成安全威胁. 例
                 如, Chrome 浏览器根据用户的浏览量和评分推荐流行主页, 攻击者通过在数据收集过程中注入伪造数据来发起伪
                 数据攻击, 将某钓鱼网站推荐为流行主页, 造成信息泄露的安全隐患; 或者在导航软件中, 系统统计来自用户的路
                 线评分以提供更好的服务, 攻击者向系统发送大量伪造数据, 例如, 为某路况较差的低评分路线发布大量高分评
                 价, 将其推荐为高评分路线, 导致用户体验不佳.

                                                  伪造假用户
                                         攻击者
                                                             伪造的扰动数据
                                         用户1
                                                  扰动数据
                                                  扰动数据
                                         用户2                     聚合估计
                                                 扰动数据    数据收集方
                                         用户n
                                              图 2 本地差分隐私伪数据攻击模型

                    假设系统中的真实用户人数为            n, 攻击者注入   m  个假用户, 因此用户总人数变为         n+m. LDP  机制在用户端执
                 行编码和扰动步骤, 攻击者可以获得            LDP  机制的关键细节, 例如, 用户数据域        [d]、扰动值的支持集. 攻击者的目
                 标项目集    T  包括  r (1 ⩽ r ⩽ d) 个项目, 表示为  T=  {t 1 ,t 2 ,...,t r } . 攻击者的目标是尽可能大地增加集合  T  中每个项目
                 的频率估计值, 因此攻击者精心制作从假用户发送到数据收集方的扰动值. 用                        Y  表示假用户的扰动值集合, Y       的每
                      y i  是攻击者为假用户                      y i  可以是集合  (如子集选择机制), 也可以是元组        (如环机制).
                 个元素                   i 伪造的扰动值. 扰动值
                                                      ˆ
                         f t  表示目标项目              ˆ   f t,b  分别表示攻击前和攻击后     LDP  机制对目标项目     t 的频率估计
                    假设                t 的真实频率,    f t,a  和
   311   312   313   314   315   316   317   318   319   320   321