论文部分内容阅读
在近几十年中,数据库技术是信息技术中重要的研究领域,数据流、不确定数据已成为研究的热点,而数据挖掘技术使得涉及隐私的各种类型数据随时都有被泄漏的可能,数据的安全成为信息安全技术中重要的研究课题,企业、个人隐私等在数据的发布和使用过程中如何进行保护亦备受研究人员关注。在隐私保护技术中,k-匿名是重要的技术之一,可以有效防止隐私的泄漏,因此k-匿名技术亦成为目前研究的热点。k-匿名的基本思想是通过匿名化(如泛化和隐匿)原始数据集中的某些属性值形成满足一定匿名要求的匿名数据集并可用于数据发布。而在信息发布时实施数据隐私保护要考虑两个方面问题:(1)确保数据发布过程中隐私不泄露;(2)发布的匿名共享数据具有实用性。因此,在避免隐私泄露的同时使数据具有实用价值是必须解决的一个问题。本文重点关注匿名后数据的实用价值,针对k-匿名技术开展了一系列的研究,主要从下述几个方面开展工作:为了使在数据匿名化过程中防御不同类型的推理攻击和使攻击的成功可能性降低,以避免隐私泄漏,提出了在匿名数据集上基于属性值域、值关联、匿名规则和匿名关系等主要知识的隐私推理攻击的防范策略:敏感属性值多样性;小于相应的预定义阈值;匿名规则和匿名关系多种方式结合;降低推理概率的平均值等。针对敏感属性进行了深入的研究,分析提炼出了敏感属性的特征,提出了敏感度的概念,创建了基于背景知识的加权敏感度矩阵、关系敏感度矩阵和不确定关系矩阵,并将这三个矩阵应用到k-匿名模型中,针对静态数据集,提出了CBK(L,K)-anonymity匿名模型和算法以及多维CBK(L,K)-anonymity匿名算法。该模型依据本文总结的隐私推理攻击的防范策略,通过加权敏感度矩阵和聚类来实现数据的匿名化。实验结果表明CBK(L,K)-anonymity匿名算法的有效性,可以更好地抵制同质攻击和基于背景知识攻击,有效解决了敏感属性的多样性问题,匿名数据实用性大幅提高。针对具有动态特性的流数据,提出了一种改进的RSLK-anonymity匿名模型和算法。该算法采用特化树的数据结构和关系敏感度矩阵实现流数据的k-匿名。实验结果表明RSLK-anonymity匿名算法的有效性和可用性,可以更好地抵制各种推理攻击,较好地解决了动态流数据中敏感属性的多样性问题。针对具有不确定特征的关系型数据,提出了UDKattr(tuple)-匿名模型和UDAK-匿名模型以及相应算法用于不确定关系型数据的匿名数据发布。UDKattr(tuple)-匿名算法采用特化树的数据结构和不确定关系矩阵实现包含不确定性数据的关系型数据k-匿名,UDAK-匿名用聚类、不确定关系矩阵和分解实现包含不确定性数据的关系型数据k-匿名,实验结果表明UDKattr(tuple)-匿名模型和UDAK-匿名算法的有效性和可用性,可以更好地抵制各种推理攻击,实现了具有不确定特征的关系型数据数据发布过程中隐私保护,同时还保持了不确定数据本身的不确定性。