基于个人隐私约束的数据匿名化研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:joyuan100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐私保护在现如今的各种数据应用中得到了越来越广泛的关注。这一现象源于两方面的原因:一方面,数据库和网络技术的迅猛发展,使人们能方便地发布和共享数据,这些数据中有可能包含涉及个人隐私的敏感信息。另一方面,人们越来越重视数据的价值,期望通过数据挖掘和分析手段从中提取出重要信息以满足特定应用。在这样的场景下,如何在数据发布和使用过程中尊重和保护个人隐私成为一个严峻的话题。  近年来提出的大量隐私保护方法都基于数据匿名化这一有效手段。其基本思想是:通过改变原始数据中的部分数据值,降低敏感信息与特定个体的关联度,进而降低隐私泄露的风险。然而,已有的匿名化研究都假设数据发布者拥有的数据是完整的、未经过修改的微数据,从而只关注敏感属性上的各种约束,却没有讨论由于个人隐私自治而带来的非敏感属性上的约束。  本文主要研究基于个人隐私约束的数据匿名化问题,一个在数据发布隐私保护领域的全新问题。本文的主要研究成果包括:  1、提出了基于个人隐私约束的数据匿名化思想:将数据预处理和数据使用限制等个人隐私自治行为归一化为个人隐私约束。并给出了基于概化层次和基于概化度的两种个人隐私约束的定义。在此基础上形式化描述了基于个人隐私约束的数据匿名化问题。  2、提出了一个新的匿名化质量度量标准:信息损失增益。并将其应用于基于个人隐私约束的数据匿名化场合。  3、证明了基于个人隐私约束的最优匿名化问题是NP难的,针对基于概化层次和基于概化度的个人隐私约束,分别给出了启发式算法用于解决匿名化问题。大量的在人工数据集和真实数据集上的实验评估证明,这两个算法具有良好的性能和匿名化效果。  4、探讨了个人隐私约束的实质,并通过将基于个人隐私约束的匿名化方法扩展到能够适用于其他数据匿名化原则,来深入阐述基于个人隐私约束的数据匿名化的意义。
其他文献
随着投影以及多投影技术在现实生活中各个领域内的广泛应用,传统的只针对于特定投影表面或投影幕的多媒体投影技术已经远远不能够满足现实应用中的特定要求。本文中提出了一种
随着计算机网络技术的发展,全球互联网用户快速增长,网络信息资源语种也日益多样化,跨语言信息检索已成为越来越重要的研究课题。   在汉英等语言的跨语言检索方面已经有
随着SOC(Service-Oriented Computing)的广泛应用,Internet环境下越来越多的资源以服务的方式进行封装。服务组合可以通过组合不同的资源来满足用户需求,而服务选择是服务组
编码领域中人们最关心的是码的结构以及解码的效率,而这个效率包括了误码率和编码容量等方面的研究内容。而在从事码的结构的研究过程中,码的网格表示也作为一个议题被人广泛研
本文详细分析了可信计算组织为解决匿名认证问题给出的三种方案,重点讨论了TPM v1.2规范中的DAA方案(文中称为BCC方案)。主要的工作如下:(1)针对在TPM v1.2规范中重点描述的
随着21世纪纳米时代发展步伐的加快,电子元件工艺特征尺寸不断地缩小,由初期让我们自豪的65nm发展到现如今预测的22nm,集成电路制造工艺的飞速发展推动着单芯片上晶体管集成
本体是语义网的重要组成部分。在语义网中,本体的分布存在着分散性。由于本体由语义网用户自主创建,所以同一领域中的本体所采用的术语和呈现的结构都可能存在差异,这些特征
学位
Ad hoc网络的自组织、无中心节点和网络拓扑结构动态变化等特性,使其所面临的安全问题更为复杂。基于属性加密是在基于身份加密技术基础上发展起来的一种新型公钥加密技术,与
各种电子商务平台及社交媒体网站的广泛涌现,使得互联网上累积了广大用户关于产品性能及消费体验的海量评价文本数据,这些数据中不仅隐含着用户的消费行为模式,而且隐含着产