论文部分内容阅读
K-匿名作为一种简单有效的私有数据的保护技术得到了广泛的关注。它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。目前存在的k-匿名算法大都基于泛化/隐匿技术,然而,泛化/隐匿技术在效率、连续性数据的语义保持等上存在一定的缺陷。近年来,微聚集(Microaggregation)技术被应用到数据表的k-匿名化上,弥补了泛化/隐匿技术的不足,其基本思想是:将大量的数据按相似程度划分为若干类,要求每个类内元组数至少为七个,然后用类质心取代类内元组的值,实现数据表的k-匿名化。本文研究了全局搜索的微聚集算法,实现了面向混合型数据的微聚集算法,并且提出了面向微聚集算法的评估模型,主要研究工作如下:(1)提出了基于免疫克隆选择的微聚集算法(ICSMA,Immune Colonal SelectionMicroaggregation Algorithm),提高了微聚集算法产生的匿名数据的质量。该算法在传统的克隆选择算法的基础上,引入调整算子,在抗体成熟的过程中,删除不合理抗体,加快了收敛速度。实验结果表明,ICSM算法较MDAV算法能生成质量更好的匿名表。(2)针对目前微聚集算法在匿名化分类型数据上的不足,本文提出了一种面向混合型数据的微聚集算法。该算法中,分类型数据采用层次距离,数值型数据采用欧氏距离,将这两种距离的结合作为混合型数据的距离,并将数值型数据的均值向量与分类型数据的众值向量并在一起作为类质心,用该类质心代替类中元组在准标识符上的值,以实现k-匿名化。实验结果表明该方法在保证匿名表安全的情况下,可以降低匿名表的信息损失量,提高可用性。(3)提出了微聚集算法的评估模型EM4ADOM(Evaluation Model for k-AnonymizedData Oriented to Microaggregation),该模型从数据的可用性、安全性、可用性和安全性的权衡三个方面综合评估微聚集算法产生的匿名数据的质量。实验结果表明,EM4ADOM能够较全面地评估微聚集算法。