论文部分内容阅读
随着网络、通信技术的迅猛发展,数据挖掘呈现出海量化、分布式等特点,如何保护数据挖掘过程中的隐私数据和防止敏感信息的泄露已成为数据挖掘和信息安全领域当前面临的重大挑战,隐私保护的数据挖掘(Privacy Preserving Data Mining,PPDM)也已经成为数据挖掘(DM)领域的一个重要研究课题。聚类挖掘和关联规则挖掘是应用较为广泛的数据挖掘方法。本文针对垂直分布环境下聚类挖掘和关联规则挖掘的隐私保护方法进行研究,目的是在有效地挖掘出数据库中隐藏的知识的同时保护数据的隐私。本文从敏感知识的保护和敏感数据的保护两方面,介绍了数据挖掘中的常用隐私保护技术;在阐述了数据挖掘技术的基础上,重点介绍了聚类挖掘和关联规则挖掘的原理和流行算法,并分析了各种算法的优缺点。在此基础上,针对数据垂直分布的聚类挖掘和关联规则挖掘中的敏感知识的保护进一步做了以下工作:(1)对于聚类挖掘的隐私保护,设计了一种新的基于数据垂直分布的隐私保护的聚类算法VPPDK(Vertically Partitioned Data Oriented Privacy Preserving Distributed K-means),该算法在数据垂直分布的条件下,将数据干扰和安全多方计算相结合,利用半可信第三方参与下的安全求平均值协议,实现了隐私保护的聚类挖掘,不仅能达到保护数据隐私安全的要求,而且能得到有效的挖掘结果。(2)对于关联规则挖掘的隐私保护,设计了一种新的针对关联规则挖掘的基于密码学技术的隐私保护策略CRYPPARM(Cryptology Based Strategy for Privacy PreservingAssociation Rule Mining)。在CRYPPARM中,采用了安全两方点积协议和公钥密码体系来对垂直分布的数据进行有效的挖掘。同时还引入了局部拓扑结构来尽可能地降低通信成本。(3)对文中设计的相关算法做了测试实验,实验结果表明这些算法具有较好的挖掘准确性、隐私保护性和效率。