基于敏感控制的差分隐私数据发布方法研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:mgqzhineng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算、无线网络和电子商务等基于互联网的应用迅速发展,在网络中留下大量的数据。然而,这些数据的收集者可能分别属于不同机构,数据的集成综合分析需要将这些数据公开发布或与分析者共享。但这些数据往往包含了个人或企业机构的敏感信息,需要有效的隐私保护方法对数据进行隐私保护处理。因此,数据发布或共享的隐私保护研究在近10多年来成为了一个受到广泛关注的热点研究方向。本文主要围绕当前具有复杂关联性的数据发布的隐私保护问题开展研究,通过对数据发布隐私保护方法的研究现状进行了综述和分析,指出了现有的差分隐私模型和方法用于复杂关联性数据时易受推断攻击而导致隐私泄漏;提出了基于敏感控制的差分隐私模型以及相关处理算法来解决据关联性带来的隐私泄露问题,并将该模型与k-匿名模型结合提高数据的效用性。论文的主要研究工作如下:(1)提出基于敏感控制的差分隐私模型和结合k-匿名的敏感控制差分隐私模型用以解决发布具有复杂关联性数据时因推断攻击而泄露隐私的问题和因添加过量噪声而破坏匿名数据效用性的问题。基于敏感控制的差分隐私模型利用敏感控制参数对敏感模板中隐含的敏感规则的最大置信度进行限制,而在结合k-匿名的敏感控制差分隐私模型中参数k作为粒度控制参数来限制模板所代表数据记录的最小数量。(2)采用贪心划分和模板精确化方法对文中提出的基于敏感控制的差分隐私数据发布模型和结合k-匿名的差分隐私数据发布模型实现了有效的近似算法。由于两种模型均属于NP难问题,因此在进行隐私保护过程中利用贪心策略能有效减少算法的搜索空间,而在对数据进行贪心划分后,模板精确化能有效提高数据的效用性。并通过对安全性和时间复杂度进行讨论说明了实现的算法能满足隐私需求并且有较好的扩展性。(3)利用实现的两个近似算法,搭建了对应的隐私保护数据发布系统,并利用真实数据集Adult在该系统上进行实验。通过对比在不同大小的匿名数据集学习到的决策树的分类错误率和其隐私保护消耗的时间,说明本文提出的两种模型能安全有效的进行数据发布。同时,随着实验数据规模的增大而进行隐私保护所需的时间变化不大可以说明两种算法对大规模数据依然有效。并且,当选择了合适的粒度参数能有效提高匿名数据的效用性。
其他文献
地震事件中由地震观测仪器所记录的波形数据不但是研究地震学的主要依据,而且是事件本身特点及相关信息的来源。地震波形数据蕴含着很多事件特征信息,可从波形数据中提取波形
随着计算机及网络技术的迅猛发展,非法用户或黑客通过网络对信息系统的入侵也越来越多,系统安全保护已经成为刻不容缓的问题,进行用户身份认证是实现系统安全保护的一个重要
目前,基于工作流技术的管理系统通常不易扩展,且系统间的集成兼容性较差。针对上述问题,本文研究了基于数据库的工作流技术,并将该技术应用于物资管理系统。本文首先研究分析
随着大数据时代的到来,数据以前所未有的速度急剧增长,大数据中蕴藏着无限的价值。传统的数据库技术由于缺乏良好的横向扩展能力等原因已难以应对这样的挑战,NoSQL数据库技术
在目前的研究中,有关人体动作的识别已经取得了很大的进步,但是在处理像weizmann数据库这样的多动作周期的视频数据时,采用一般的方法,识别率偏低。本文提出了一种新的基于整
优化技术是一种以数学为基础,用于求解各种组合优化问题的应用技术。最优化问题是人们在工程技术、科学研究、和经济管理等诸多领域中经常碰到的问题,它是指在满足一定的约束
数据挖掘是一种从大量复杂数据中,寻找、提取有用规律,形成有用模式,得到价值的过程。随着现代科技水平的发展,尤其是近年大数据概念的提出,我们正进入一个数据资源开发的时代,数据
Leader-Based Protocol(LBP)是最经典的802.11可靠多播协议之一。近年来基于LBP协议的研究和改进工作在世界各地都有进行,但针对多媒体流进行协议优化的研究工作甚少。本文针
大群体仿真技术是运用计算机虚拟现实技术、人工智能技术和计算机图形技术,对具有大量个体的群体行为、运动等进行仿真模拟的技术。群体仿真技术在多个领域均有应用,具有较强
随着Internet和Web技术的迅速发展,传统的分布式计算技术已不能满足Web应用环境,Web服务应运而生并成为一个被广泛接受的面向服务计算的范例。从电子商务的应用角度看,Web服