论文部分内容阅读
当今世界,微博已经成为人与人信息共享与沟通的重要平台,截止到2016年3月底,微博的日活跃用户达到1.2亿,很多对社会有重大影响力的新闻事件都是从微博中传播出来。微博热点话题的发现对政府机关引导舆情走向、企业管理者的决策、个人的日常生活都具有重要的意义。为了从海量的微博数据中准确地提取出热点话题,本文从以下几个方面进行了研究。首先,本文实现了中文微博的定制爬虫,使用模拟登录技术以及用户关注的爬取策略从种子用户开始解析其关注用户的数据,之后进行爬取、解析与存储微博数据。对于存储后的微博数据,进行繁体字的转化以及根据微博数据的类型进行相应的预处理操作。使用定制微博爬虫爬取数据作为实验的分析对象与系统实现的数据源。针对微博中存在大量与新闻热点无关数据的问题,本文提出了基于微博元数据的热度计算与基于时间变化的热度计算方法来选择热点微博。首先利用点赞数、转发数、评论数、微博发表用户的关注度计算热度值;其次利用词频变化率加权tf-idf的方法计算微博的热度。其次,对微博进行LDA建模,使用得到的微博主题模型进行微博文本向量的表示,解决传统方法表示微博文本的高维度与数据稀疏问题。针对吉布斯采样算法收敛速度慢的问题,实现了基于MapReduce的并行吉布斯采样算法。最后,提出了 BHK-means算法用于微博文本聚类,使用黑洞算法寻找K-means算法的全局最优初始聚类中心点,解决K-means算法容易陷入局部最优的问题。针对海量微博数据的处理效率问题,提出了基于MapReduce的BHK-means算法。最后,提出了一种基于LDA与微博热度加权的方法从热点微博簇中提取出话题词。实验结果表明,本文的微博热度计算方法选择的微博中,转发微博的比率明显升高,证明了该方法的有效性:LDA建模较传统的文本表示模型会获得更好的聚类效果,基于MapReduce的吉布斯采样算法求解LDA具有良好的加速比;BHK-means算法具有较高的聚类精度,基于MapReduce的BHK-means算法具有良好的加速比;基于LDA与微博热度加权的方法可以提取出较为准确的热点话题词。