数据表匿名化的微聚集算法的研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:qinsikai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K-匿名作为一种简单有效的私有数据的保护技术得到了广泛的关注。它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。目前存在的k-匿名算法大都基于泛化/隐匿技术,然而,泛化/隐匿技术在效率、连续性数据的语义保持等上存在一定的缺陷。近年来,微聚集(Microaggregation)技术被应用到数据表的k-匿名化上,弥补了泛化/隐匿技术的不足,其基本思想是:将大量的数据按相似程度划分为若干类,要求每个类内元组数至少为七个,然后用类质心取代类内元组的值,实现数据表的k-匿名化。本文研究了全局搜索的微聚集算法,实现了面向混合型数据的微聚集算法,并且提出了面向微聚集算法的评估模型,主要研究工作如下:(1)提出了基于免疫克隆选择的微聚集算法(ICSMA,Immune Colonal SelectionMicroaggregation Algorithm),提高了微聚集算法产生的匿名数据的质量。该算法在传统的克隆选择算法的基础上,引入调整算子,在抗体成熟的过程中,删除不合理抗体,加快了收敛速度。实验结果表明,ICSM算法较MDAV算法能生成质量更好的匿名表。(2)针对目前微聚集算法在匿名化分类型数据上的不足,本文提出了一种面向混合型数据的微聚集算法。该算法中,分类型数据采用层次距离,数值型数据采用欧氏距离,将这两种距离的结合作为混合型数据的距离,并将数值型数据的均值向量与分类型数据的众值向量并在一起作为类质心,用该类质心代替类中元组在准标识符上的值,以实现k-匿名化。实验结果表明该方法在保证匿名表安全的情况下,可以降低匿名表的信息损失量,提高可用性。(3)提出了微聚集算法的评估模型EM4ADOM(Evaluation Model for k-AnonymizedData Oriented to Microaggregation),该模型从数据的可用性、安全性、可用性和安全性的权衡三个方面综合评估微聚集算法产生的匿名数据的质量。实验结果表明,EM4ADOM能够较全面地评估微聚集算法。
其他文献
XML已经成为Internet上数据表示和数据交换的标准格式。近年来,在Web上涌现了大量的XML数据。为了更容易的操作XML文档中的数据,专家和学者们在编码、索引、查询等方面做了积
随着Internet的普及应用,人们对网络安全的需求日益增加,访问控制是防止非授权访问的一种重要的网络安全手段。基于角色的访问控制(RBAC:Role Based Access Control)模型有效
自愈调控是构建可信计算机系统的必要手段,也是系统高可用性的重要保证。传统的分布式系统失效恢复技术主要依赖高成本冗余和人为管理,由于系统失效后人为修复的难度和成本加
随着多媒体技术的飞速发展,复杂背景图像中的文本定位研究不仅丰富了图像处理理论,而且在诸如Internet环境下的图像检索、交通管理中的车牌识别等具有重大的价值。复杂背景文
随着企业信息化建设的快速发展,企业所产生的电子文档越来越多,面对浩瀚的企业内部数据,如何有效获取有用信息成为一个非常重要的问题;另外,由于企业文档涉及商业信息,利用商
随着社会经济的发展,煤炭工业在体制、资源、安全、环境和转产发展等方面的深层次矛盾逐渐暴露出来。山西省作为产煤大省这一问题尤为突出,煤炭工业、产煤地区经济和社会可持续
软件成本估算是软件估算的重要环节,成本估算的精确与否直接影响到软件的后续开发过程及软件开发质量。传统的软件成本估算存在很多不足,国外广泛应用的软件成本估算方法引入到
随着人们对地理信息需求的不断增长和Internet技术的快速发展,GIS技术与Internet技术相互融合形成了WebGIS。WebGIS应用越来越普及,已经渗透到各个应用领域。对于如何快速的开
电信网络的运营业务分为两大部分,即基础电信业务和增值业务。随着信息化的迅猛发展,电信市场的竞争日趋激烈,基础电信业务已经难以满足某些用户的需求。只有不断开拓新业务,
玉米作为世界三大农作物之一,在世界范围的播种面积和总产量中占有重要的地位,是重要的粮食作物和油料作物。我国是一个农业大国,农作物的种类众多,玉米是目前种植面积最大的