论文部分内容阅读
隐私保护在现如今的各种数据应用中得到了越来越广泛的关注。这一现象源于两方面的原因:一方面,数据库和网络技术的迅猛发展,使人们能方便地发布和共享数据,这些数据中有可能包含涉及个人隐私的敏感信息。另一方面,人们越来越重视数据的价值,期望通过数据挖掘和分析手段从中提取出重要信息以满足特定应用。在这样的场景下,如何在数据发布和使用过程中尊重和保护个人隐私成为一个严峻的话题。 近年来提出的大量隐私保护方法都基于数据匿名化这一有效手段。其基本思想是:通过改变原始数据中的部分数据值,降低敏感信息与特定个体的关联度,进而降低隐私泄露的风险。然而,已有的匿名化研究都假设数据发布者拥有的数据是完整的、未经过修改的微数据,从而只关注敏感属性上的各种约束,却没有讨论由于个人隐私自治而带来的非敏感属性上的约束。 本文主要研究基于个人隐私约束的数据匿名化问题,一个在数据发布隐私保护领域的全新问题。本文的主要研究成果包括: 1、提出了基于个人隐私约束的数据匿名化思想:将数据预处理和数据使用限制等个人隐私自治行为归一化为个人隐私约束。并给出了基于概化层次和基于概化度的两种个人隐私约束的定义。在此基础上形式化描述了基于个人隐私约束的数据匿名化问题。 2、提出了一个新的匿名化质量度量标准:信息损失增益。并将其应用于基于个人隐私约束的数据匿名化场合。 3、证明了基于个人隐私约束的最优匿名化问题是NP难的,针对基于概化层次和基于概化度的个人隐私约束,分别给出了启发式算法用于解决匿名化问题。大量的在人工数据集和真实数据集上的实验评估证明,这两个算法具有良好的性能和匿名化效果。 4、探讨了个人隐私约束的实质,并通过将基于个人隐私约束的匿名化方法扩展到能够适用于其他数据匿名化原则,来深入阐述基于个人隐私约束的数据匿名化的意义。