面向大数据发布的差分隐私保护技术研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:a12431
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据及网络无所不在的时代,海量个人信息被收集用于数据挖掘,以获得具有经济或社会意义的潜在价值。由于数据公开要求或受利益驱使,相关机构需要发布或交换收集到的数据。直接发布原始数据会泄露个人隐私,但恰恰这些数据中包含的敏感信息对于数据挖掘最有价值。如何在确保隐私安全的同时保持数据使用价值已经成为数据发布领域的研究热点。  隐私保护模型主要分为分组匿名和差分隐私。分组匿名易受背景知识攻击且缺陷层出不穷,而差分隐私与背景知识无关且经过严格数学证明并提供量化可控的隐私保护能力。因此,差分隐私被业界广泛认可并逐渐成为研究热点。但差分隐私模型存在引入噪声过大,数据可用性不高及实现困难多的问题。  现有面向数据挖掘的差分隐私发布方法中,将K-匿名模型和差分隐私相结合的DiffGen算法是公认较好的算法。该算法以构建决策树的方式完成对原始记录“先泛化,后逐步精确化”的分组发布过程。但该算法生成的数据集的分类准确率不够理想,对给定的隐私保护预算利用不够充分。  本文主要研究工作如下:  1.研究面向分类的差分隐私保护发布领域的主要技术,并且深入研究DiffGen算法的思想,针对其不足之处提出改进方案。首先,分析比较了指数机制可用性函数,使用基尼增益替代信息熵增益和最大频度。然后,研究其隐私预算分配方案,找出其利用不充分的问题。最后,提出自己的改进算法GiniDiff。  2.对改进方案进行实现,并研究实现过程中的难题,用实验结果验证改进效果。首先,使用面向对象方法解决泛化匿名实现问题。然后,提出算法解决指数机制和拉普拉斯机制只有定义框架而难于实现的问题。  实验结果表明,改进的算法在同等条件下发布的数据集的分类准确率和DiffGen算法相比有明显优势,且接近原始数据集的分类准确率。
其他文献
随着Internet的迅速发展,大数据时代已悄无声息地到来,数据的规模较之过去已呈现出井喷式的增长态势,同时数据结构亦愈发复杂多变。在这样的情势下,由于传统的数据分析方法在
由于互联网技术的不断进步与各类电子终端的迅速普及,我们获取资讯的方式发生了重大的改变,网络信息已经成为社会中各种信息的重要载体。其中,新闻视频以其丰富、直观表达方式成
随着网络、通信和计算机技术的迅速发展,数据挖掘呈现出数据海量化,分布式挖掘等特点,如何在挖掘过程中保护隐私数据和防止敏感信息泄露已成为当前面临的重大挑战,隐私保护数
高压输电线路绝缘子发生闪络往往导致长时间大面积的停电事故,对国民经济造成巨大损害,因此对输电线路上绝缘子发生闪络的监测及预防意义重大,而对绝缘子闪络监测及预防的基础工作就是对绝缘子泄漏电流进行数据分析。本文首先对EMD算法进行了改进,用改进后的EMD算法对绝缘子泄漏电流数据进行了分解,并用小波阈值去噪方法对分解后的数值进行去噪,然后对去噪后的数据进行Hilbert变换得到其时频谱及边际能量谱,最后
表情识别是一项很富挑战性的工作;而且由于它在很多实际应用方面(人机交互、医疗行业、心理学等)都很有应用前景,所以这项工作也相当具有吸引力。以前大部分的研究都是针对于
随着嵌入式系统应用领域的不断扩展,诸如手持式智能终端等嵌入式设备接入Internet已成为技术主流。嵌入式Internet技术面临的主要困难是标准Internet协议对于计算机存储器容
云计算作为一种可以提供高性能计算、管理和服务的信息新技术,它能够以较低成本和较高性能解决海量信息存储和大规模计算问题,从而能较好的解决许多企业发展过程中的IT设备更新
随着地理信息系统的普及,越来越多的用户希望在线获取空间服务和空间数据。空间信息在线服务面临着许多挑战:海量空间数据的网络传输导致传输速度缓慢;大量并发用户的请求致使服
随着Web2.0技术的快速发展,互联网给人们的工作生活都带来了很多的便利。例如,在过去人们为了买一件衣服,可能需要去很远的商场购买,而如今,只需要通过网络在淘宝,京东等电商
泛在网络已经成为未来互联网发展的方向。在泛在网络环境中,网络设备具有数量庞大、种类繁多、功能迥异、结构多样的特点。如果想要为网络用户提供一个高性能而且维护成本较