论文部分内容阅读
随着信息技术特别是互联网和数据库技术的快速发展,使各组织机构产生了海量的实际应用数据。这些数据的收集和共享有利于提高服务质量、促进科学研究;然而,在这些包含个人信息的数据使用过程中如进行数据挖掘等,也会增加个人隐私信息泄漏的风险。因此,如何在发布个人数据的同时不泄露数据中包含的隐私信息已经成为了一个普遍的问题。隐私保护要确保攻击者不能以高概率推测目标个体的敏感信息。在数据发布的过程中,为了不泄露个体数据中包含的敏感信息,发布数据通常是经过处理后的匿名数据。另一方面,数据发布的最终目的是为了进行数据分析和研究,因此必须保证匿名数据的可用性。所以,在数据发布的隐私保护研究中,重点就是要平衡隐私保护与匿名数据可用性之间的矛盾。在实际应用中,要发布的数据往往含有多个敏感属性,而已经提出的隐私保护方法并不适合多敏感属性的数据发布问题。面向多敏感属性数据发布中的隐私保护方法主要是通过改变敏感属性之间的对应关系使得攻击者不能准确推测目标个体的敏感信息。目前,面向多敏感属性数据的隐私保护算法大多是对k-anonymity和l-diversity算法的扩展,但都还存在一些问题,如在高维数据中隐私信息保护难度较大、信息隐匿率过高等,尤其是当各个敏感属性的值多样性差异较大的情况下这些问题更为突出。针对这些问题及实际应用情况,本文提出了基于敏感属性分类的多敏感属性隐私保护模型。其核心思想是依据各个敏感属性的属性值的多样性程度把属性分类,对不同类的属性设置不同的l值,并依据某种策略进行分组使其满足l-diversity。同时,提出了两种实现该模型的算法,它们采用不同的策略实现数据集的分组并满足该模型的隐私保护要求。实验验证表明,它可以降低信息隐匿率、较好的保护隐私信息,同时提高数据的可用性。