面向隐私保护的多方协作集成学习算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liongliong461
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是大数据分析中重要的组成部分,它通过学习一系列的规则并将它们组合起来共同解决一个问题,如分类、回归。当多方协作地建立集成学习模型时,如何确保该模型的有效性和隐私性是集成学习研究方向的一个挑战。不同机构独立地建立本地的集成学习模型,由于受限于数据资源大小和计算资源规模,故模型的性能难以满足大数据挖掘的需要。传统的多方用户共享数据或者集成学习模型的方法,存在个人隐私泄露的风险。本文提出面向差分隐私的多方协作的集成学习框架和具体算法。方案的主要思想是多方在本地建立集成学习分类器,分类器是受到差分隐私约束的,能够保护个体的敏感属性;在半诚实的中心机构融合多个机构的集成学习分类器,然后再分发给各个机构。融合函数考虑了每个本地集成学习分类器的准确度和各方的数据量大小,并使得不同的本地模型在最终的融合模型中有不同的权重贡献。基于此框架,实现了差分隐私约束下的随机森林算法(CRFsDP)和自适应提升算法(CAdaBoostDP);理论分析和实验结果证明了本文的方案在隐私和模型有效性之间寻找到平衡点,并且个性化的隐私预算配置能够提升融合分类器的性能。本文在提出的差分隐私方案基础上,讨论了广告点击率预估的隐私问题。有效地预测广告点击率是解决包括广告推荐、产品定位和用户画像等问题的基础,在计算广告学方向具有举足轻重的地位。首先设计了混淆方法,即直接向广告点击数据集加入噪声记录。其次通过在KDD CUP 2012真实数据集的实验比较了混淆和差分隐私两种方法,实验结果也说明差分隐私的策略使得融合分类器的性能更优,加入的噪声量更容易控制。最后设计并实现了带差分隐私的广告点击率预估系统,模拟了真实场景的广告推荐。广告点击率预估实例的研究,进一步说明了本文方案的实用性。
其他文献
根据PLM平台及模块化设计的定义,两者在产品研发管理思路上有较高的吻合度,可以说PLM平台是推行模块化设计的信息化工具。本文通过对PLM平台和模块化设计思想的比较分析,以及
脑白质损伤是早产儿最常见的脑损伤形式,以少突胶质前体细胞(OPCs)损伤所造成的髓鞘脱失为特点。脑白质损伤后由于缺乏有效的治疗措施,幸存的患儿多遗留神经系统后遗症。细胞
舞蹈教学在中职素质教育中是一门集技巧性与实践性为一体的课程,是将训练、表演融为一体的教育活动,目前中职舞蹈教育尚面临许多问题,文章对中职舞蹈教育的现状进行了分析,并
目的:本课题主要研究了浮针疗法在早、中期原发性膝骨关节炎的超重患者的应用,通过与电针治疗对比,评价浮针治疗对该病患者的症状改善情况,及生活质量改善程度,旨在为本病的
轴流风机叶片作为风机最重要的部件,其轻量化和耐磨性也逐渐成为重要的研究方向。本文根据某项目轴流风机的设计要求,重点从选材、成型工艺、强度计算等方面对轴流风机叶片的
评分是影响口语考试信、效度的重要因素。口语考试的评分方法可以分为主观评分和客观或半客观评分两种。前者主要有总体等级评分和分项等级评分,后者主要有机器评分、分项客观
人事代理州度是高校人事管理中的一项创新制度,它包括签订劳动聘用合同、委托人事代理、终止聘用合同三个环节,能够实现高校人事管理从身份管理向岗位管理的转变.开展高校人
纤维素是由2000—10000个葡萄糖分子组成的长链大分子,除反刍动物借瘤胃微生物可以利用纤维素外,其他高等动物几乎不能消化和利用纤维素。纤维素酶能将饲料中的纤维素降解成可
目的探讨改良早期预警评分(MEWS)联合专科指标评分在住院潜在危重患者中的应用价值。方法对医护人员发放专科重点监测指标收集表,结合临床病例观察验证确定专科指标和分值,以
中职院校的学前教育中有一个重要的学习课程,就是声乐教学。声乐对于学前教育专业的学生来说有着重要的学习作用。那么,当前中职学前教育的声乐教学现状怎么样,都存在着哪些