论文部分内容阅读
随着计算机设备的不断更新换代和网络全球化的快速发展,数据库技术得到了越来越广泛的应用,数据库共享已经变成了一种普遍现象,越来越多的个人信息记录被不同的部门和机构大量收集,这些数据可能会被这些部门和机构用于数据发布或者数据挖掘,但是由于信息中可能包含个人隐私,就会造成在数据的共享或发布中的隐私泄漏问题。正因如此数据发布中的隐私保护成为了近年来的研究热点。 本文讨论了课题的研究背景和意义,总结了该领域当前国内外的研究现状,并对数据发布中的隐私保护技术进行了综述。针对当前的隐私保护方法信息损失大、时间复杂度高等问题,本文从模糊数学中的模糊集的角度出发,提出了基于模糊集的最大隶属度算法,具体工作如下: 对隐私保护相关知识进行了概述,全面分析了当前数据发布中主要的隐私保护方法,包括了随机扰动技术和匿名隐私保护技术,并分析了各种隐私保护方法的优缺点。对发布数据可能遭受的各种攻击(包括连接攻击、同质攻击和背景知识攻击)结合具体实例进行了详细的理论分析。 本文从基于模糊集的角度出发,提出了基于模糊集的隐私保护方法,并同时给出了最大隶属度算法。该算法的应用条件是准标识符中必须包含数值属性,其核心思想是对准表示符中的数值属性和敏感属性同时进行处理以获得满足要求的发布数据表。对数值属性的处理是将数值型数据进行模糊化转换为语义型的数据,确定模糊子集,然后确定隶属函数并根据隶属函数计算出每个属性相对于模糊子集的隶属度,根据最大隶属度原则确定最终所属的模糊子集,最终结合隶属度与语义型数据一同发布。对类别属性处理要先确定其PL和DL值,然后按照映射表的方法进行映射处理。 最后通过实验对本文中的算法进行了实验验证,可以看出本文的算法不仅有着高效的时间效率,而且信息损失小、隐私泄露风险低,除此之外还可以有效的抵抗连接攻击、同质攻击和背景知识攻击。