论文部分内容阅读
随着大数据时代的到来,社交网络上每天都会产生海量的信息,通过对这些数据进行挖掘和分析,可以很好的提升用户体验和服务质量。然而,这些数据中往往包含着大量的个人隐私信息,如个人基本情况、社会关系等。所以,为了防止用户的隐私信息遭到泄露,需要对这些数据进行一定的隐私保护后才能发布给第三方机构进行研究。由于差分隐私具有严格的数学理论基础,并且不依赖于攻击者的任何背景知识,故其近年来得到了广泛地研究和应用。社交网络中的差分隐私保护模型有节点差分隐私保护和边差分隐私保护两种,而前者较后者可提供更高的隐私保护强度,因此本课题借助节点差分隐私保护模型,实现对社交网络数据的隐私保护发布。由于应用节点差分隐私保护往往会带来较高的全局敏感度,因此本文提出一种SNE(Sequence ofNodes and Edges)社交网络图处理算法。该算法主要通过构建一种节点和边相结合的排序规则,实现了对图中节点和边的稳定排序,提升了算法的稳定性。同时,根据节点度的阈值,将有序的边依次插入到“初始化”后的社交网络图中,最终完成对社交网络图的处理。SNE算法通过对节点的度设定阈值,使得处理后的图以可控的较低全局敏感度来满足节点差分隐私保护,使得数据的可用性大大提高,并改善了算法的性能。针对处理完成的社交网络图,本文提出一种基于K-means的直方图数据发布算法。该算法首先对直方图进行初始变换,这避免了直接对直方图区间进行聚类而导致差分隐私保护机制被破坏的问题。其次,基于分区加噪的思想,利用K-means算法对直方图进行分区,并对每个区间加入Laplace噪声。最后将每个分区的噪声平均分配到该分区所包含的直方图区间中,并调整区间顺序完成发布。SNE算法中的阈值机制避免了直方图分区时离群点对分区结果的影响,优化了分区效果,进而降低了直方图每个区间所添加的噪声,避免了大范围计数查询时,由于噪声过度累加,导致数据可用性降低的问题。本文在真实数据集上对提出的算法进行了检验。实验结果表明,本文提出的算法在保证社交网络数据隐私性的前提下,降低了算法的全局敏感度与噪声累加误差,提高了数据的可用性,适用于大范围计数查询。