论文部分内容阅读
本文研究了特定组织结构相关用户挖掘这一新课题,希望能从虚拟社交网络中挖掘出与某一特定组织机构存在客观归属关系或者其他关联关系的用户群体。这一课题对从虚拟网络到现实的映射有重要意义。本文的主要研究成果如下:第一,本文分析了特定组织机构相关用户挖掘这一新问题的一般性和特殊性,着重分析了基于用户间链接关系分析的相关用户挖掘方法。本文将特殊组织机构相关用户挖掘任务归结为用户数据爬取、相关用户挖掘、相关用户微博分析这几个子任务,并重点研究了用户数据和用户微博数据爬取、特定组织机构相关用户挖掘这两个方面。第二,基于链接分析的技术,设计并实现了特定组织机构相关用户挖掘的基线系统。系统应用在新浪微博平台上,以北京邮电大学为特定组织机构进行了相关实验,通过对系统结果的分析,发现了链接分析技术在相关用户挖掘这一特定问题上的可改进点。第三,提出了基于词激活力模型改进的链接分析方法。本文基于词激活力和词亲和度的概念提出了用户激活力和用户亲密度两个概念,并以此作为链接分析技术中传递节点权威度的影响因子。基于这一算法,进行了组织机构相关用户挖掘的对比实验,实验结果表明,算法提升了链接分析技术进行相关用户挖掘的准确度,验证了WAF对连接分析技术的改进效果。第四,针对新浪微博,设计并实现了对特定组织机构的信息的采集、处理和分析系统——微邮系统。系统首先克服了API权限限制和API数据、网页数据不一致等问题,获取了新浪微博的用户信息和微博信息,然后在信息处理和抽取阶段解决了标签粘连问题和实体抽取问题,最后通过相关用户挖掘和相关微博查询扩展两种途径对北京邮电大学进行了信息挖掘和整合,最终得到了北京邮电大学的相关用户和热点话题。