论文部分内容阅读
数据可用性问题是k-匿名隐私保护模型带来的一个具有挑战性问题。1998年L.sweedy提出了保护用户隐私的k-匿名隐私保护模型,泛化准标识符,虽然保护了用户的隐私但是大大降低了数据的可用性,之后为了在保护隐私的同时提高数据的可用性,研究人员对k-匿名隐私保护模型进行了改进,但是受隐私保护要求的制约,即使最优化的k-匿名算法,也不可能产生完全精确的数据,因此,改进k-匿名算法只能在一定程度上提高数据的可用性,不可能彻底解决问题。
数据挖掘问题是提高k一匿名隐私保护模型下数据可用性问题之一。通过分析发现生成k-匿名表时所利用的泛化树同利用精确表生成的判定树的部分非叶结点的属性值的概化过程有相同之处。由此文中提出了一种基于k-匿名表的判定树生成算法,该算法直接以k匿名表作为输入,避免了经典的判定树算法运行前的准备工作,该算法比经典的判定树算法在时间上有明显地改善。
判定树算法是重要的分类和预测的数据挖掘算法。文中提到了四种匿名化分类情况,分别为:(1)利用匿名化数据建立模型,来分类匿名化数据。(2)利用匿名化数据建立数据模型,分类原始数据。(3)利用精确数据建立模型,来分类匿名化数据。(4)利用匿名化数据分类分布式数据。改进的判定树算法是利用匿名化数据作为输入的,即利用匿名化数据建立的模型。所以文中对前两中分类情况做了详细的论述。
关联规则的发现是数据挖掘中重要的研究分支,是发现大量数据中项集之间有趣的关联或相关联系。在关联规则挖掘算法中,根据规则集所涉及的抽象层可将规则分为多层关联规则和单层关联规则。所谓多层关联规则即规则中的项为精确表中项的泛化,且在很多应用中在底层或原始抽象级别上很难发现数据项间的强关联规则,一般情况下都需要挖掘多层关联规则。从这层意义上来说,多层关联规则的挖掘同k-匿名泛化过程是有共同点的。同时由于k-匿名数据是一种特殊的不确定数据,文中对经典的Apriori算法进行改进,使其适合k-匿名隐私保护模型。实验结果表明,文中提出的算法行之有效。