论文部分内容阅读
近年来,随着互联网技术的不断进步,人们参与社会网络的活动也逐渐增多,产生了大量社会网络数据,而大部分的社会网络数据都会包含隐私信息。由于科学研究等需求,社会网络数据往往会被数据发布者发布出来,而隐含于其中的隐私信息就面临着威胁。因此,在社会网络数据发布时对其进行隐私保护处理就变得非常重要。目前,现有的隐私保护模型都存在着三大问题。第一,攻击者掌握的背景知识难以衡量。攻击者可能收集到简单的信息,例如节点的度、边上权重值等,同时也可能收集到例如图的中间性、路径可达等复杂的信息组合。第二,目前为止没有一套完善的规则来界定由于匿名化过程所产生的信息损失量。第三,社会网络的匿名处理方法无法固定。研究者都需要根据自己的研究问题来设计匿名处理策略。对于以上所提出的问题,研究者们提出了很多有效的办法,例如贪心聚类方法、敏感边分组方法以及带权网络社团挖掘方法等等。本文考虑的是全邻域关系隐私攻击,即攻击者能够掌握的最大背景知识就是目标节点的全邻域关系图。在此基础上,本文通过对查询的复杂程度的分析证明了查询越复杂,隐私泄漏的概率就越大。针对此类全邻域关系攻击,本文提出了一种SA-Weighted(security and availability, SA)隐私保护模型,针对不同类型、不同规模的社会网络数据,对该模型的具体保护效用进行了探索与分析。本文就节点被标识出的概率和信息损失量的关系、权重分布以及平均最短路径查询的正确率进行了实验分析,验证了SA-Weighted隐私保护模型对于特定类型的社会网络数据,具体地说是小规模的、关联度较大的社会网络数据,不仅能够保证其具有一定的机密性,即能够比较有效地降低隐私信息被披露的概率,同时还可以保证发布后该类社会网络数据具有必要的可用性。然而,由于只适用于某种类型的社会网络数据,该隐私保护模型在隐私保护的效用上具有一定的局限性。在互联网时代的背景下,本文的研究工作对隐私保护研究领域有一定程度的理论与实际意义,同时对社会网络图的匿名发布过程也存在一定的参考价值。综上所述,本文的研究工作具有一定的实际价值。