论文部分内容阅读
集成学习是大数据分析中重要的组成部分,它通过学习一系列的规则并将它们组合起来共同解决一个问题,如分类、回归。当多方协作地建立集成学习模型时,如何确保该模型的有效性和隐私性是集成学习研究方向的一个挑战。不同机构独立地建立本地的集成学习模型,由于受限于数据资源大小和计算资源规模,故模型的性能难以满足大数据挖掘的需要。传统的多方用户共享数据或者集成学习模型的方法,存在个人隐私泄露的风险。本文提出面向差分隐私的多方协作的集成学习框架和具体算法。方案的主要思想是多方在本地建立集成学习分类器,分类器是受到差分隐私约束的,能够保护个体的敏感属性;在半诚实的中心机构融合多个机构的集成学习分类器,然后再分发给各个机构。融合函数考虑了每个本地集成学习分类器的准确度和各方的数据量大小,并使得不同的本地模型在最终的融合模型中有不同的权重贡献。基于此框架,实现了差分隐私约束下的随机森林算法(CRFsDP)和自适应提升算法(CAdaBoostDP);理论分析和实验结果证明了本文的方案在隐私和模型有效性之间寻找到平衡点,并且个性化的隐私预算配置能够提升融合分类器的性能。本文在提出的差分隐私方案基础上,讨论了广告点击率预估的隐私问题。有效地预测广告点击率是解决包括广告推荐、产品定位和用户画像等问题的基础,在计算广告学方向具有举足轻重的地位。首先设计了混淆方法,即直接向广告点击数据集加入噪声记录。其次通过在KDD CUP 2012真实数据集的实验比较了混淆和差分隐私两种方法,实验结果也说明差分隐私的策略使得融合分类器的性能更优,加入的噪声量更容易控制。最后设计并实现了带差分隐私的广告点击率预估系统,模拟了真实场景的广告推荐。广告点击率预估实例的研究,进一步说明了本文方案的实用性。