摘要:差分隐私凭借其强大的隐私保护能力被应用在随机森林算法解决其中的隐私泄露问题,然而,直接将差分隐私应用在随机森林算法会使模型的分类准确率严重下降.为了平衡隐私保护和模型准确性之间的矛盾,本文创新性地提出了一种高效的差分隐私随机森林训练算法——eDPRF(efficient Differential Privacy Random Forest, eDPRF).具体而言,该算法创新设计了决策树构建方法,通过引入重排翻转机制高效的查询输出优势,进一步设计相应的效用函数实现分裂特征以及标签的精准输出,有效改善树模型在扰动情况下对于数据信息的学习能力.同时基于组合定理设计了隐私预算分配的策略,通过不放回抽样获得训练子集以及差异化调整内部预算的方式提高树节点的查询预算.最后,通过理论分析以及实验评估,表明本文算法在给定相同隐私预算的情况下,模型的分类准确度优于同类算法.