Page 16 - 《软件学报》2025年第7期

P. 16

王树兰等: eDPRF: 高效的差分隐私随机森林训练算法 2937

签种数.
在分支节点的特征选择过程中, 针对待选的特征集合, 根据公式 (11) 为集合中每个特征计算效用分数. 同时,
为每个特征计算其分数概率, 计算过程如公式定义
(12) 所示. 对于特征集合中的任一特征
F a , 其分数概率
p spl_F a
如下:

(
 ) 
ε spl u −u ∗ 
F a
 spl spl 
   
p spl_F a = exp    (12)
 
2∆u spl
其中, ε spl 表示分支节点获得的隐私预算, u F a 表示 F a 的效用分数, 通过公式 (11) 计算获得. u ∗ 表示待选特征集
spl spl
合中最大的效用分数. ∆u spl 为公式 (11) 的全局敏感度. 为简化计算, 假设对于任意数据集 D 2 , 数据集 D 1 是通过
D 2 上增加 1 i ′ ∆u spl 的计算过程如公
′
在条样本后形成的, 新增样本的特征 F a 取值为 v , 标签为 L k . 全局敏感度
F a
式 (13).

∆u spl = maxu spl (D 1 ,F a )−u spl (D 2 ,F a )
D 1 ,D 2
    2      2 
C K ∑ n F a ,i C K ∑ n F a ,i
 
 
 ∑    L,L k    ∑    L,L k  


 
  i        i     
 
= − v 1−  i   − − v 1−    (13)
 i  

 


  F a     F a   

v v
i=1 k=1 F a i=1 k=1 F a
D 1 D 2
其中, ∆u spl 等价于公式 (14).

)
( ) 2 K ∑ ( ) K ∑(
F a ,i ′ 2 F a ,i ′ 2
n F a ,i ′ +1 + n n
L,L k ′ L,L k
L,L k
k=1,k,k ′
k=1
∆u spl = 1− +
i ′ i ′
(v + 1) v
F a F a

 

K ∑( K ∑ (
)
) 
F a ,i ′ 2 ( ) 2 F a ,i ′ 2

i ′ 
i ′
(v + 1) n − v  n F a ,i ′ +1 + n 



L,L k 
F a L,L k F a   L,L k ′ 
k=1 k=1,k,k ′

= 1+
i ′ i ′
(v + 1)v
F a F a

K ∑( )
F a ,i ′ 2 F a ,i ′ i ′
i ′
n −2v n − v
L,L k F a L,L k ′ F a

k=1
= 1+

i ′ i ′
v (v + 1)
F a F a

K ∑( )
F a ,i ′ 2
n
L,L k F a ,i ′
2n
k=1 L,L k ′ +1
(14)
= 1+ −
i ′ i ′ i ′
v (v + 1)
F a F a v + 1
F a

K ∑( )
F a ,i ′
n ( ) 2
L,L k i ′ 2n F a ,i ′ i ′

v +1 2v +1
k=1 F a L,L k ′ F a ∆u spl 的取值范围为
,
根据 ⩽ 1 0 ⩽ ⩽ ⩽ 2. 可以确定
0 ⩽ ⩽ i ′ i ′
i ′ i ′ i ′ i ′ v + 1 v + 1
F a
F a
F a
v (v + 1) v (v + 1) F a F a
F a

0–2 之间, 由于当 ∆u spl 取值过小时, 差分隐私的保护效果将受到影响, 因此本文将 ∆u spl 设定为 2.
此外, 在上述计算过程中, D 1 是通过在 D 2 上增加 1 条样本后形成的数据集, 同理可得, 如果假设 D 2 是通过在
D 1 增加 1 条样本后形成的数据集, ∆u spl 的范围仍然为 0–2 之间.
在创建分支节点过程中, 本文基于算法 2 访问训练数据并输出分裂特征, 并将输出的特征作为分支节点的分
裂点.

11 12 13 14 15 16 17 18 19 20 21