论文部分内容阅读
随着互联网的迅速发展,微博作为一种新的网络媒体形式,在人们获取信息、传递信息、检索信息等日常网络行为中扮演着越来越重要的角色。与传统媒体数据相比,微博文本简短,支持实时转发评论,并且话题传播速度快,这使得微博数据成为新的研究对象。微博话题检测技术是研究如何对大量的微博数据信息进行管理分类,已经成为当前微博研究的热点之一。本文从微博数据的采集、微博数据短文本预处理、微博话题检测方法三个方面进行研究。采集相关微博数据,并结合微博的文本简短性和结构化信息特征,在传统话题检测方法基础上,对微博数据预处理和微博话题检测方法进行了探讨。主要工作内容如下:基于微博开放API接口采集相关微博数据。在微博采集数据方面,介绍了网络爬虫技术和基于微博开放平台的微博数据获取方案。通过数据获取实验分析两种数据采集方法的优缺点,表明微博开放平台获取数据方法更好。所以,采用通过程序调用微博API接口获取本文的实验数据。针对微博短文本,提出一种新的基于多语言翻译的文本特征扩展方法。在微博数据短文本预处理方面,提出了一种有效的扩充数据特征表示方法,即通过翻译机器的多种语言表达增加文本特征数量。我们从其他语言中获得的额外知识丰富简短文本特征,然后利用矩阵分解技术进行短文本整合和维数约减,这在一定程度上解决了短文本挖掘中存在的问题。改进单增量聚类算法用于微博话题检测。在传统话题检测方法的基础上,结合微博文本简短的特点和微博结构化信息的特征,对单增量聚类算法进行了改进。采用相似度最大阈值和最小阈值策略,并利用微博文本间转发评论关系和微博用户间好友关系,提出MB-SinglePass微博话题检测算法。实验证明该算法检测效果更佳。