论文部分内容阅读
近年来,随着互联网技术的快速兴起和大数据应用的迅速发展,数据正在逐渐改变人们的生活和工作方式,其价值也在各行各业得到逐步体现。但是,数据发布在创造价值的同时也会让用户的隐私受到巨大的威胁。因此,用户隐私保护成为数据发布中一个至关重要的安全需求。如果发布的数据得不到合适的处理,那么涉及用户隐私的敏感信息就可能出现泄漏的情况。例如,不可信的实体可能企图窃取用户的身份信息,历史位置和移动轨迹信息,甚至可以通过背景知识和上下文信息来揭露用户的行为习惯等隐私信息,进而威胁到用户的生命与财产安全。因此,为了解决大数据背景下的数据发布中存在的隐私问题,本文进行了以下针对性的研究:(1)针对数据发布中可能出现的隐私泄漏问题,本文提出了一种基于准标识符分类的混淆差分隐私数据发布方案AQ-DP。该方案提出了一种根据敏感属性对准标识符进行分类的方法,并分别使用随机洗牌算法和数据泛化算法对分类的准标识符进行隐私保护处理。该方法的优势在于在不破坏数据的关联性的同时又对用户数据隐私提供保护。AQ-DP引入差分隐私来加强对用户数据的保护,从而数据安全性从理论上能够得到保障。此外,方案引入KL divergence和互信息的概念,用于衡量方案中数据可用性和隐私性。实验结果表明,相比于现在较为流行的差分隐私方案,AQ-DP在满足更多安全属性的同时,有更好的性能,更贴近于实际场景。(2)针对当前单服务器处理海量数据时无法做到实时隐私保护的现状,本文提出了一种基于神经网络预测的多集群分布式差分隐私数据发布方案MCDP。该方案建立了分布式的差分隐私处理模型,大大缓解了单服务器的数据处理压力。同时,在此模型中,中心服务器不存储任何用户数据,因此即使中心服务器受到攻击,用户数据也不会泄漏。集群之间不同的隐私参数也保证了该方案的灵活性和可行性。相比于以往经典差分隐私方案,实验结果表明MCDP在数据隐私性和实时运行效率等方面都有相对突出的表现。(3)以数据发布和差分隐私技术为应用背景,结合Node.js和Electron等现有主流技术和框架,本文实现了一个基于差分隐私的数据查询系统。用户可以通过向系统提出查询获取关于数据集的相关统计信息,以用于决策的制定或者数据挖掘的有关工作,同时该用户无法挖掘数据集中个体的隐私信息,有效实现了数据隐私保护。同时,该系统采用不同差分隐私处理方法来满足用户的交互式和非交互式查询需求。此外,系统提供了不同差分隐私参数供用户选择,基于不同的隐私参数,系统所添加的噪声概率分布也不一样,并且系统能实时显示当前的噪声概率密度图像。