基于Hadoop的中文微博热点话题发现方法研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:nwj9666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界,微博已经成为人与人信息共享与沟通的重要平台,截止到2016年3月底,微博的日活跃用户达到1.2亿,很多对社会有重大影响力的新闻事件都是从微博中传播出来。微博热点话题的发现对政府机关引导舆情走向、企业管理者的决策、个人的日常生活都具有重要的意义。为了从海量的微博数据中准确地提取出热点话题,本文从以下几个方面进行了研究。首先,本文实现了中文微博的定制爬虫,使用模拟登录技术以及用户关注的爬取策略从种子用户开始解析其关注用户的数据,之后进行爬取、解析与存储微博数据。对于存储后的微博数据,进行繁体字的转化以及根据微博数据的类型进行相应的预处理操作。使用定制微博爬虫爬取数据作为实验的分析对象与系统实现的数据源。针对微博中存在大量与新闻热点无关数据的问题,本文提出了基于微博元数据的热度计算与基于时间变化的热度计算方法来选择热点微博。首先利用点赞数、转发数、评论数、微博发表用户的关注度计算热度值;其次利用词频变化率加权tf-idf的方法计算微博的热度。其次,对微博进行LDA建模,使用得到的微博主题模型进行微博文本向量的表示,解决传统方法表示微博文本的高维度与数据稀疏问题。针对吉布斯采样算法收敛速度慢的问题,实现了基于MapReduce的并行吉布斯采样算法。最后,提出了 BHK-means算法用于微博文本聚类,使用黑洞算法寻找K-means算法的全局最优初始聚类中心点,解决K-means算法容易陷入局部最优的问题。针对海量微博数据的处理效率问题,提出了基于MapReduce的BHK-means算法。最后,提出了一种基于LDA与微博热度加权的方法从热点微博簇中提取出话题词。实验结果表明,本文的微博热度计算方法选择的微博中,转发微博的比率明显升高,证明了该方法的有效性:LDA建模较传统的文本表示模型会获得更好的聚类效果,基于MapReduce的吉布斯采样算法求解LDA具有良好的加速比;BHK-means算法具有较高的聚类精度,基于MapReduce的BHK-means算法具有良好的加速比;基于LDA与微博热度加权的方法可以提取出较为准确的热点话题词。
其他文献
随着信息技术的发展,大数据时代的来临,各行各业都积极的提高自身的技术水平,创新经营管理模式,很多企业都采用办公自动化,这种运用多种技术形成的现代化新型办公形式,将计算
为了客观地评价晚唐诗人胡曾的《咏史诗》,对它的“通俗”性进行了深入分析。分析认为,“通俗”作为胡曾《咏史诗》最突出的艺术特性,既成就了它在蒙学史、文学史上的地位,又使其
我国中西部地区经济不发达,人地冲突尖锐,其生态旅游产品绿色质量维护,主要依赖于国外短期资助的非可持续方式。中西部地区应借鉴国外成功经验,建立社区参与生态旅游产品绿色质量
哈萨克族生活在广阔的草原上,独特的生活环境给予了哈萨克人丰富的情感、慷慨的气质和鲜明的个性。由于哈萨克人大部分从事畜牧业,过着逐水草而居的游牧生活,因而哈萨克人的
<正>本案例为一家具有乡村粗犷气息、提供中美结合菜式的餐厅。早在2010年,负责该项目的设计师Thomas Schoos与大厨Brian Malarkey便搭档在圣地亚哥设计了富有都市牛仔风情的
期刊
老当益壮的M109自行榴弹炮美国陆军的M109型155毫米自行榴弹炮,从它开始批量生产之日算起,已经是有54年“军龄”的老兵。这种大口径的自行榴弹炮于1952年8月开始立项,暂定名
结合财政部新近发布的《行政事业单位内部控制规范(试行)》的要求,本文通过与企业内部控制的对比,分析了事业单位实施内部控制的特殊性,并简要阐述了事业单位实施内部控制的
目的:探讨麻醉专科护士发展中存在的问题及其解决措施。方法:选取2013年8月-2014年4月笔者所在医院的30名麻醉护士的相关资料进行分析,采用问卷调查等方法分析麻醉专科护士发展
纪传体是将人物事迹与时间结合而成的文学有机体,用来反映历史事件的一种史书编纂体例。纪传体体例是由司马迁首创,但却不是凭空而来,很大程度与司马迁所据的材料——尤其是
在新课程标准理念下,教师在教育教学过程中越来越重视各学科的相互融合和相互渗透。史学和文学从古至今就有着紧密的联系,古人们的劳动生产生活属于史学范畴,古人们在劳动生产生活中产生的情感,属于文学范畴。但追溯起根源,他们都是特定时代背景下的产物。由于史学与文学的紧密联系,而文学作品又是文学最主要的表现形式,因此将文学作品的应用引入到初中历史教学的课堂中,可以为历史课堂带来更多的活力。随着新课程改革的深入