Page 322 - 《软件学报》2025年第5期
P. 322

2222                                                       软件学报  2025  年第  36  卷第  5  期


                                                      mr
                    结论  6. 环机制  MGA  攻击整体效用为                  −c .
                                                  (n+m)(P t − P f )
                    证明: 环机制的     MGA  攻击中, 本文选取一种最理想情况. 从哈希函数集              H  中选取一个哈希函数      h m  , 使用哈希
                 函数  h m  将所有目标项目进行映射, 所有目标项目的覆盖区域存在交集, 从交集中随机选取一个值, 发送给数据收
                                               y i  支持项目   的概率为     E[F y (t)] = 1 , 代入公式  (31) 得到攻击整体效用:
                                                        t
                 集方. 因此, 向数据收集方发送的扰动值                            1, 即

                                                                        i
                                                  ∑              mr
                                                         ˆ
                                              G =     E[∆ f t ] =       −c                           (36)
                                                    t∈T      (n+m)(P t − P f )
                                                                 m
                    根据公式    (8)、公式  (9) 可以得到   P t ,P f  的具体值, 用  β =   表示假用户比例, 将  P t ,P f ,β 代入攻击整体效用
                                                                n+m
                 G 中, 可以得到攻击效用的具体表示, 如表           2  所示.

                                                  表 2 环机制攻击效用分析

                               攻击类型              RPA               RIA              MGA
                                                                                  (       )
                                                 (  r  )                           2re ε
                               攻击效用             β  − f T         β(1− f T )      β     − f T
                                                                                    ε
                                                 d                                 e −1

                                                        r                      ( r  )
                    本文理论上分析了       3  种攻击效用的大小. 已知        < 1 β > 0 且   f T < 1 , 可得  β  − f T < β(1− f T )  . 因此  RPA  攻
                                                             ,
                                                        d                       d
                                                                  2re ε
                                                                                                   ε
                 击效用小于     RIA  攻击效用. 对于环机制       MGA  攻击, 将分式         的分子分母相减, 可以得到         2re −(e −1) =
                                                                                               ε
                                                                   ε
                                                                  e −1
                                                          2re ε                               (  2re ε  )
                       ε                       ε
                 (2r −1)e +1  . 因为  r ⩾ 1  , 所以  (2r −1)e +1 > 0  , 则   ε  > 1  . 已知  β > 0  且  f T < 1  , 可以判断出  β  − f T >
                                                         e −1                                  e −1
                                                                                               ε
                 β(1− f T )  , 因此环机制  MGA  攻击效用大于  RIA  攻击效用. 综上, 可以得到攻击效用大小满足          G MGA > G RIA > G RPA  .
                    本文具体分析      MGA  攻击受参数    d 、  ε 、  β 、   影响时攻击效用的变化: 环机制的     MGA  攻击效用中不含参数
                                                        r
                 d  , 所以环机制的   MGA  攻击效用不受     d  大小变化的影响. 当假用户比例        β 增大或者目标项目个数   增大时, 环机
                                                                                             r
                 制     MGA  攻击效用都会增大. 第  4.3.2  节实验验证了这些参数对攻击效用的影响.
                 4   实验结果与分析

                 4.1   实验设置与运行环境
                    实验采用合成数据集        SynData、IPUMS  数据集.
                    ● SynData 满足均匀分布, 数据包含      10 000 个真实用户, 用户数据域是      [1, 100].
                    ● IPUMS  是美国历年人口普查数据集         [24] , 实验选择  2010  年加利福尼亚州的数据, 按照     2.5%  的比例采样, 使
                 用其中的区号属性, 数据中包含         1 048 575  个用户和  205  个区号.
                    数据集的具体信息见表         3.

                                                      表 3 实验数据集

                                        数据集                      SynData            IPUMS
                                     真实用户人数                       10 000           1 048 575
                                     数据域大小    d                   100                205
                                     假用户比例    β                    0.1               0.1
                                     目标项目数量    r                   10                20
                                      隐私预算   ε                     1.0               1.0
                             子集选择机制中用户提交数据个数          k            27                55

                    实验平台是     8  核  AMD R7-5800h、16 GB  内存、Windows 11  系统, 代码采用  Python  实现.
                                                                                                ⌊    ⌋
                                                                                                   d
                                                   k 的设置, 文献                                           或
                    对于子集选择机制中用户提交数据个数                          [6] 指出子集选择机制中最优子集的大小为                 ε
                                                                                                 1+e
                 ⌈    ⌉                                                       ⌊     ⌋
                   d                                                            100
                        . 参考这一结论, 当数据域大小        d = 100  , 隐私预算  ε = 1.0  时, 设置  k =  = 27  ; 当数据域大小  d =
                  1+e ε                                                        1+e 1.0
   317   318   319   320   321   322   323   324   325   326   327