论文部分内容阅读
随着Web2.0的兴起,互联网发展出了多种多样的网络应用服务,其中“社交网络服务(Social Network Service,SNS)”是近年来最为火爆的网络应用。用户在平台上分享和获取着海量数据的同时,也把自己暴露在社会工程学攻击的威胁中。本文以社会工程学为导向,研究提出并实现了一种通过分析与挖掘SNS用户数据从而挖掘用户隐私的方法和技术。该方法基于社会工程学理论,从多SNS源搜集用户的社交活动数据,借助社交主题模型、社交网络图和可视化等技术,对SNS数据进行分析、挖掘和显示。该研究可用于协助SNS网站制定隐私控制策略,在提高用户网络安全等方面都会有重要的意义。本文首先分析了SNS数据分析挖掘技术和社会工程学研究的国内外现状,然后结合本文的研究目标,重点研究了面向社会工程学的SNS分析和挖掘的三个关键技术:1)多源SNS数据的分析抓取。本文分析了各社交网络的隐私控制策略,在此基础上对可抓取数据进行了归纳和总结,提出了多源数据抓取的技术框架,同时针对任务实时性的需求,设计了基于社交活动预测的任务调度算法。2)基于LDA的自适应社交主题模型。为了分析和挖掘用户的社交主题,本文针对用户社交平台的动态数据,提出了改进的LDA社交主题模型,该模型使用了新的相似度评价标准,可以自适应地解决用户社交数据LDA建模中主题数K无法确定的难题。3)隐私挖掘途径研究。基于社会网理论,结合社交主题模型对用户静态关系网进行了深入分析,研究并给出了与目标用户建立弱连接关系的途径分析。接着,在上述三个关键技术的基础上,结合上海某公安研究所的实际需求,采用基于UML的面向对象开发方法,完成了SNS用户隐私分析和挖掘平台的用例建模和架构设计,并使用MySql、J2EE、JGibbLDA和Restful等相关技术实现了该隐私分析和挖掘平台。最后,针对本文所提出的多源SNS数据的分析抓取、基于LDA的自适应社交主题模型和隐私挖掘途径的三项关键技术分别设计和完成了实验,实验结果显示上述研究都是可行的。目前SNS用户隐私分析和挖掘平台已经在实际中交付该研究所试用,实践也表明平台的功能、性能和挖掘办法都满足了该所的使用需要。