论文部分内容阅读
随着云计算、无线网络和电子商务等基于互联网的应用迅速发展,在网络中留下大量的数据。然而,这些数据的收集者可能分别属于不同机构,数据的集成综合分析需要将这些数据公开发布或与分析者共享。但这些数据往往包含了个人或企业机构的敏感信息,需要有效的隐私保护方法对数据进行隐私保护处理。因此,数据发布或共享的隐私保护研究在近10多年来成为了一个受到广泛关注的热点研究方向。本文主要围绕当前具有复杂关联性的数据发布的隐私保护问题开展研究,通过对数据发布隐私保护方法的研究现状进行了综述和分析,指出了现有的差分隐私模型和方法用于复杂关联性数据时易受推断攻击而导致隐私泄漏;提出了基于敏感控制的差分隐私模型以及相关处理算法来解决据关联性带来的隐私泄露问题,并将该模型与k-匿名模型结合提高数据的效用性。论文的主要研究工作如下:(1)提出基于敏感控制的差分隐私模型和结合k-匿名的敏感控制差分隐私模型用以解决发布具有复杂关联性数据时因推断攻击而泄露隐私的问题和因添加过量噪声而破坏匿名数据效用性的问题。基于敏感控制的差分隐私模型利用敏感控制参数对敏感模板中隐含的敏感规则的最大置信度进行限制,而在结合k-匿名的敏感控制差分隐私模型中参数k作为粒度控制参数来限制模板所代表数据记录的最小数量。(2)采用贪心划分和模板精确化方法对文中提出的基于敏感控制的差分隐私数据发布模型和结合k-匿名的差分隐私数据发布模型实现了有效的近似算法。由于两种模型均属于NP难问题,因此在进行隐私保护过程中利用贪心策略能有效减少算法的搜索空间,而在对数据进行贪心划分后,模板精确化能有效提高数据的效用性。并通过对安全性和时间复杂度进行讨论说明了实现的算法能满足隐私需求并且有较好的扩展性。(3)利用实现的两个近似算法,搭建了对应的隐私保护数据发布系统,并利用真实数据集Adult在该系统上进行实验。通过对比在不同大小的匿名数据集学习到的决策树的分类错误率和其隐私保护消耗的时间,说明本文提出的两种模型能安全有效的进行数据发布。同时,随着实验数据规模的增大而进行隐私保护所需的时间变化不大可以说明两种算法对大规模数据依然有效。并且,当选择了合适的粒度参数能有效提高匿名数据的效用性。