Page 11 - 《软件学报》2025年第7期
P. 11

2932                                                       软件学报  2025  年第  36  卷第  7  期


                 其中,  Ω 为指数机制的归一化因子,        ∆u 是函数  u(D,r) 的全局敏感度.
                    (3) 重排翻转机制    [12] : 假设数据集为  D, 由一组选项构成的集合为  ,            Q 的效用函数为     u : D× Q → Q. 对
                                                                        Q D 与
                       Q 的任意选项          u 都会输出选项    q  的效用分数. 若算法     F  以算法  1  所示的形式获得集合     Q  中的选项
                 于集合              q, 函数
                 q, 则算法  F  满足  ε -差分隐私.
                 算法  1. 重排翻转算法.

                 输入: 数据集   D, 隐私预算   ε, 效用函数   u, 选项集合  Q;
                 输出: 选项.
                 函数:  PermuteAndFlip(D,ε,u,Q).
                 ①  s ∗ = max q∈Q u(D,q);
                 ② for  q in  RandomPermutation(Q) do
                              ε
                            (             )
                 ③    p q ← exp  (u(D,q)− s ∗ )  //  ∆u 是  u 的全局敏感度;
                             2∆u
                 ④  if  Bernoulli(p q ) then
                 ⑤   return  q;
                 ⑥  end if
                 ⑦ end for
                    定理  1 (串行组合定理)    [13] . 给定一个数据集   D, 如果   n 个随机函数   S i  对于数据集  D 的访问都满足  ε i  -差分隐私,
                                                                        ∑
                 其中  1 ⩽ i ⩽ n, 则   n 个函数   S i  构成的组合函数对于数据集  D 的访问满足    ε i  -差分隐私.
                    定理  2 (并行组合定理)    [13] . 假如  n 个两两互不相交的数据集    D i  共同构成数据集    D. 如果存在随机函数      S i  对于
                                                                                             D  的访问满足
                 数据集   D i  的访问满足  ε i  -差分隐私, 其中  1 ⩽ i ⩽ n, 则  n  个函数  S i  构成的组合函数对于数据集
                 max(ε i )  -差分隐私.
                    性质   1 (后处理性)  [13]  . 假设作用在数据集  D 上的随机机制     G : D → M  满足  (ε,δ)  -差分隐私, 则对于随机机制
                         ′                     ′
                 f : M → M , 有  A(◦) = f(G(◦)) : D → M  满足  (ε,δ) -差分隐私.

                 2.2   随机森林
                    随机森林采用      Bagging  集成策略以及自助采样方法       (Bootstrap) 对多棵决策树进行组合. 在差分隐私化的随机
                 森林  [7,8] 中, 基尼指数是最常用的划分标准, 对应的数学定义如下所示.
                    定义                                                        D 的基尼指数定义如公式        (7) 所示.
                        5 (数据集的基尼指数). 假设数据集         D 存在  c 个类别特征值, 则数据集
                                                     ∑  c  ∑          ∑ c
                                             Gini(D) =        p i p i = 1−  p 2 i                     (7)
                                                                 ′
                                                            ′
                                                        i=1  i ,i       i=1
                 其中  p i  代表每个类别特征值的概率. 基尼指数越小, 表明数据集的纯度越高.
                    定义  6 (特征划分子集的基尼指数). 对于特征          F i , 当   F i  有   v 种取值时, 经过  F i  划分后的基尼指数定义如公式  (8)
                 所示.

                                                            ∑
                                                              v |D k |
                                               Gini − index(D) =   Gini(D k )                         (8)
                                                              k=1 |D|

                 3   高效的差分隐私随机森林训练算法               eDPRF
                    本文提出一种高效的差分隐私随机森林训练算法                  eDPRF, 其中包括: 隐私预算分配环节、决策树创建环节以
                 及随机森林生成环节. 在设计过程中, 主要考虑以下原则: 1) 需要对训练数据隐私提供保护; 2) 尽可能提高随机森
                 林模型的可用性. 因此, 在隐私预算分配环节中, 本文引入并行组合定理进行预算对齐操作, 提高每个树节点获得
                 的查询预算. 在决策树的创建环节中, 本文提出              pfDPDT (differential privacy decision tree with permute and flip) 算
                 法, 通过重排翻转机制优化节点查询过程, 增强每个树节点获取数据信息的能力. 在随机森林模型的生成环节中,
   6   7   8   9   10   11   12   13   14   15   16