论文部分内容阅读
由于数据挖掘是从大量真实数据中提取有价值的知识,在挖掘过程中很可能会造成隐私信息的泄露,这就带来了隐私保护方面的诸多问题。因此,如何在合理保护隐私数据信息的同时得到满意的挖掘结果成为了数据挖掘领域的一个十分重要的研究方向,其中倍受关注的分支之一就是关联规则挖掘中的隐私保护问题。本文针对关联规则挖掘中的隐私保护问题进行研究。首先介绍了相关背景知识,接着对现有的隐私保护关联规则挖掘方法作了深入浅出的分析和介绍。在此基础上,针对保护原始数据的关联规则挖掘问题,提出了基于ROT的PPARM算法。该算法采用不依赖于具体数据的随机正交变换方法对数据进行变换,在变换后的数据集中先采用聚类分析得到规范化的数据,然后再进行关联规则挖掘,并使用传统隐私保护度评价方法与正交变换的方向隐私保护度相结合的方法评价变换的隐私保护度。有效地解决了按照一般的隐私保护度的评价方法会产生一些特殊值与实际值不符的情况,以及在数据集容量很大的情况下运算量大的问题。通过理论分析和论证证明了该方法具有很好的隐私性、高效性和适用性。文中还进行了实验,将采用基于ROT的PPARM算法得到的挖掘结果与直接在原始数据集上挖掘的结果进行了比较。实验结果表明本文算法具有良好的隐私性、准确性和高效性。文章最后将基于ROT的PPARM算法应用到协同商务知识共享中,分析了算法的应用背景,然后详细说明了算法的应用过程,并对算法的应用情况作出了初步的评价。