Page 16 - 《软件学报》2025年第7期
P. 16

王树兰 等: eDPRF: 高效的差分隐私随机森林训练算法                                                   2937


                 签种数.
                    在分支节点的特征选择过程中, 针对待选的特征集合, 根据公式                    (11) 为集合中每个特征计算效用分数. 同时,
                 为每个特征计算其分数概率, 计算过程如公式                                                               定义
                                                     (12) 所示. 对于特征集合中的任一特征
                                                                                    F a , 其分数概率
                                                                                                p spl_F a
                 如下:

                                                              (
                                                                    ) 
                                                           ε spl u −u ∗  
                                                                F a
                                                               spl  spl 
                                                                     
                                                  p spl_F a  = exp                               (12)
                                                                     
                                                               2∆u spl
                 其中,  ε spl  表示分支节点获得的隐私预算,      u F a   表示  F a  的效用分数, 通过公式  (11) 计算获得.  u ∗   表示待选特征集
                                                  spl                                    spl
                 合中最大的效用分数.        ∆u spl  为公式  (11) 的全局敏感度. 为简化计算, 假设对于任意数据集           D 2 , 数据集  D 1  是通过
                   D 2  上增加  1                                    i ′                  ∆u spl  的计算过程如公
                                                                            ′
                 在           条样本后形成的, 新增样本的特征            F a  取值为  v , 标签为   L k . 全局敏感度
                                                                  F a
                 式  (13).



                                  ∆u spl = maxu spl (D 1 ,F a )−u spl (D 2 ,F a )
                                        D 1 ,D 2
                                                       2                 2 
                                          C        K ∑ n F a ,i  C        K ∑ n F a ,i
                                                           
                                                                                   
                                         ∑        L,L k     ∑        L,L k  
                                                                
                                        
                                                                                   
                                            i             i        
                                                           
                                      = −  v 1−    i    − −  v 1−                (13)
                                                                                i   
                                                      
                                                           
                                                      
                                                                              
                                            F a               F a        
                                                                
                                                      v                     v
                                           i=1     k=1  F a        i=1      k=1  F a
                                                             D 1                     D 2
                 其中,  ∆u spl  等价于公式  (14).



                                                                        )
                                            (      ) 2  K ∑ (  )  K ∑(
                                                           F a ,i ′ 2  F a ,i ′ 2
                                            n F a ,i ′  +1 +  n    n
                                             L,L k ′       L,L k
                                                                    L,L k
                                                     k=1,k,k ′
                                                                 k=1
                                    ∆u spl = 1−              +
                                                   i ′            i ′
                                                 (v  + 1)        v
                                                   F a              F a



                                                                                  

                                                     K ∑(                   K ∑ (
                                                          )
                                                                                  ) 
                                                     F a ,i ′ 2   (  ) 2  F a ,i ′ 2
                                                                
                                                              i ′ 
                                              i ′
                                           (v  + 1)  n   − v  n F a ,i ′  +1 +  n  
                                                                                    
                                                                
                                                                                    
                                                                               L,L k 
                                             F a       L,L k  F a    L,L k ′     
                                                   k=1                   k=1,k,k ′

                                        = 1+
                                                            i ′    i ′
                                                          (v  + 1)v
                                                            F a    F a




                                            K ∑(  )
                                                F a ,i ′ 2  F a ,i ′   i ′
                                                        i ′
                                               n   −2v n  − v
                                                L,L k  F a  L,L k ′  F a

                                            k=1
                                        = 1+

                                                   i ′   i ′
                                                 v (v  + 1)
                                                  F a  F a




                                              K ∑(  )
                                                 F a ,i ′ 2
                                                n
                                                 L,L k    F a ,i ′
                                                        2n
                                             k=1          L,L k ′  +1
                                                                                                   (14)
                                        = 1+        −
                                             i ′   i ′    i ′
                                           v (v  + 1)
                                             F a  F a   v  + 1
                                                           F a




                             K ∑(  )
                                 F a ,i ′
                                n         (  ) 2
                                 L,L k       i ′      2n F a ,i ′      i ′

                                          v                +1  2v  +1
                             k=1           F a            L,L k ′      F a       ∆u spl  的取值范围为
                                                        ,
                    根据                        ⩽ 1 0 ⩽       ⩽       ⩽ 2. 可以确定
                        0 ⩽           ⩽                  i ′       i ′
                             i ′   i ′       i ′   i ′      v  + 1    v  + 1
                                           F a
                                               F a
                                 F a
                            v (v  + 1)    v (v  + 1)   F a  F a
                             F a



                 0–2  之间, 由于当   ∆u spl  取值过小时, 差分隐私的保护效果将受到影响, 因此本文将           ∆u spl  设定为  2.
                    此外, 在上述计算过程中,       D 1  是通过在  D 2  上增加  1  条样本后形成的数据集, 同理可得, 如果假设         D 2  是通过在
                 D 1  增加  1  条样本后形成的数据集,    ∆u spl  的范围仍然为  0–2  之间.
                    在创建分支节点过程中, 本文基于算法             2  访问训练数据并输出分裂特征, 并将输出的特征作为分支节点的分
                 裂点.
   11   12   13   14   15   16   17   18   19   20   21