Page 9 - 《软件学报》2025年第7期
P. 9

2930                                                       软件学报  2025  年第  36  卷第  7  期


                 outperforms similar algorithms in terms of the model’s classification accuracy when given the same privacy budget.
                 Key words:  random forest; differential privacy; privacy budget; permute and flip; perturbation method

                    随机森林    [1] 是由多棵决策树集成而来的模型, 其中, 每棵决策树使用不同的样本子集和特征子集构建. 在面对
                 大规模数据时, 随机森林通过并行计算和随机抽样技术实现快速训练和预测, 具有较低的计算复杂度. 然而, 随机
                 森林算法存在的隐私泄露风险却容易被人忽略. 例如, 在经典的成员推理攻击机制下                           [2−4] , 攻击者可以访问随机森
                 林输出的置信概率以推测输入样本是否参与过随机森林训练过程. 尽管一些研究通过修改置信度降低攻击成功
                 率  [5] , 但随着攻击手段的升级, 攻击者可通过访问标签实现与访问置信概率同等有效的攻击效果                         [6] . 为了避免随机
                 森林存在的隐私泄露风险, 一些学者将差分隐私应用在随机森林的训练过程中                         [7,8] .
                    差分隐私是一种具有严格数学证明的隐私保护方法                  [9,10] , 满足差分隐私的计算过程会返回合理的扰动输出, 无
                 论数据集中是否存在攻击者想要获知的敏感信息, 计算过程的输出都不会产生统计差异. 即使攻击者具有很强的
                 背景知识也很难通过分析输出结果对数据集中的隐私做出置信度高的推断, 极大地降低了攻击者预测个人敏感信
                 息的可能性    [11] . 因此, 差分隐私为解决随机森林中的数据隐私泄露这一科学难题提供了新的机遇. 然而, 差分隐私
                 在为随机森林提供隐私保护的同时, 所带来的随机扰动不可避免地会对模型性能产生极大影响. 为此, 一些学者通
                 过优化决策树内部的隐私预算分配方法改善随机森林模型的可用性                        [7,8] . 然而上述研究中随机森林模型在扰动情
                 况下学习能力弱, 同时所提出的隐私预算分配方法无法适用于模型结构不平衡的实际场景, 仅仅采用逐层分配的
                 方式使训练算法无法充分利用宝贵的隐私预算资源.
                    为克服上述不足, 本文提出一种高效的差分隐私随机森林训练算法 eDPRF (efficient differential privacy
                 random forest), 有效缓解扰动情况下传统模型学习能力弱、解决隐私预算分配方法不均衡等现实问题, 增强模型
                 可用性. 本文主要贡献总结如下.
                    (1) 提出一种新的决策树创建方法, 通过引入重排翻转机制                 [12] 替代传统的指数机制和拉普拉斯机制辅助决策
                 树的建立过程, 基于该机制优势为叶子节点和分支节点分别设计效用函数, 实现分裂特征和标签的精准输出, 有效
                 改善树模型在扰动情况下对于数据信息的学习能力.
                    (2) 提出一种新的隐私预算分配策略, 基于并行组合定理                [13] 调整训练子集的划分方式, 有效提高单棵树的查询
                 预算, 并结合决策树结构的差异性执行预算对齐操作, 不仅有效解决按层分配方式下浪费隐私预算的问题还提升
                 了叶子节点的查询预算.
                    (3) 通过理论分析证明       eDPRF  算法满足   ε-差分隐私, 并与其他同类方法进行详细的实验分析对比, 证实
                 eDPRF  算法相比于同类算法, 可以在给定相同的隐私预算时有效提升随机森林模型的分类准确性.

                 1   相关工作

                    文献  [14,15] 最先引入差分隐私应用在随机森林中, 通过在随机森林分裂点的选择过程以及叶子节点的计数
                 查询过程中应用指数机制与拉普拉斯机制避免隐私泄露, 然而当设定的隐私预算较小时, 算法中会引入过量的随
                 机扰动, 极其影响模型性能. Zhang      等人  [16] 设计了一种新的特征度量标准, 在将        CART  与指数机制结合后对具有连
                 续特征的数据集进行离散化提升随机森林模型可用性, 然而该研究并未给出隐私保护需要的敏感度, 并且在实验
                 中只用到两个特征, 无法充分说明其改进效果. Wang              等人  [17] 根据输入特征与模型输出之间的相关性, 将输入特征
                 划分为具有不同相关性的不同区域实现差异化的噪声输入, 然而忽略了预处理阶段的隐私泄露问题. Guan                                等人  [18]
                 提出选择性聚合方法对随机森林进行优化, 但选择学习器的过程同样存在泄露隐私的风险. 并且, 上述学者在研究
                 中使用的局部敏感度       [19] 甚至不满足差分隐私定义. Niu     等人  [20] 提出多群体量子遗传算法为决策树赋予权重以提升
                 决策树的投票性能, 该方案同样忽略了权重本身会导致隐私泄露问题.
                    此外, 有学者通过优化隐私预算的分配方法来提升随机森林的性能. 例如, Wang                          等人  [21] 利用随机森林
                 Bootstrap  抽样后的袋外数据权重为不同决策树分配差异化的隐私预算, 但未考虑权重本身导致的隐私泄露风险.
                 Li 等人  [22] 在错误分类的样本数目上施加拉普拉斯噪声应对权重的隐私泄露问题, 然而, 该方案中正例或负例样本
   4   5   6   7   8   9   10   11   12   13   14