论文部分内容阅读
近年来,随着GPS和其他移动定位设备及服务的广泛使用,使得收集到的轨迹数据也日益增多。一方面,轨迹数据中含有大量有价值的信息,通过挖掘和分析这些时空轨迹可以帮助支持多种与移动相关的决策;另一方面,每条轨迹中含有的信息都可以被攻击者所利用,以识别用户的敏感信息,比如个人的兴趣爱好、行为模式、生活习惯、健康状况等从而对用户构成不可预测的伤害。因此,在发布时空轨迹数据之前,需要对原始数据进行处理,以防止用户的隐私被重新识别。目前,很多研究者们都针对这一问题展开研究并取得了一定的研究成果,其中轨迹k-匿名的方法是解决这一问题比较常用也是效果比较好的方法。传统的轨迹k-匿名方法是将时间和空间上相近的至少k条轨迹进行匿名,使得匿名后的这k条轨迹不可区分。它是针对轨迹上的所有点进行匿名,这就导致轨迹严重失真,影响数据质量。同时,为了将时空相近的轨迹划分到同一个k-匿名集中,需要对轨迹进行聚类。然而轨迹在时间和空间上的分布很难进行统一,因此需要更加复杂的算法对轨迹进行预处理。另外,轨迹上各个点的隐私需求是不同的,攻击者的背景知识也与轨迹上某些特殊的点有关。因此,针对以上问题,本文提出了数据发布中基于兴趣点的轨迹k-匿名隐私保护方法。该方法主要通过保护轨迹上的兴趣点来达到保护轨迹隐私的目的。很显然,在轨迹匿名之前需要先提取轨迹的兴趣点,根据轨迹隐私需求和研究需要,首先给出了本文中兴趣点的定义。在形成轨迹k-匿名集的过程中,本文避免了复杂的轨迹距离计算,而是根据相近轨迹的特征将时空相近的轨迹划分到一个分组中,即时空相近的轨迹会经过相同的兴趣区域。最后,将同一个k-匿名集中的轨迹进行匿名发布,这里采用了位置交换的思想。轨迹的匿名只是针对轨迹上的兴趣点,而对于普通点将不作任何处理。因此在本文中,轨迹k-匿名是指由兴趣点所构成的轨迹的k-匿名。我们在真实生活中的轨迹数据集上进行了实验,并且通过两种不同的方法对发布后的数据质量进行评估。通过与现有方法进行比较,证明了本文所提出的方法在达到隐私需求的前提下提高了数据质量。