论文部分内容阅读
随着计算机技术与网络技术的飞速发展,数据库中存放的有用数据大量增加,如何从海量数据中提取出有决策价值的信息,数据挖掘成为一个很好的数据分析工具采用数据挖掘工具可以帮助我们从大量数据中提取出有用的信息数据挖掘需要数据持有者将所拥有的数据进行发布,这就导致了用户隐私信息泄露的问题针对如何保护用户的敏感信息在数据发布过程中不被泄露的问题,目前已提出很多隐私保护数据发布技术,如k-匿名模型(a, k)-匿名模型和l-多样性模型等-多样性模型采用了对数据进行传统的基于层次结构的泛化方案,该模型在对数据集中敏感属性信息进行匿名保护的同时会导致较大的数据信息损失本文针对如何减少发布数据信息损失的问题进行了研究,提出一种基于密度聚类的-多样性数据匿名保护方法,该方法将满足-多样性条件作为聚类的约束问题进行分析,在满足-多样性模型约束的条件下,采用基于密度的聚类算法对数据集中的元组进行划分,针对不同数据类型的准标识符采用不同的泛化技术,并根据数据泛化前后属性的不确定程度来对泛化后的信息损失进行度量通过实验证明了本文提出的方法能够较好的保护对象的敏感信息,并在一定程度上降低了数据泛化带来的信息损失