基于Spark的微博数据分析系统的设计和实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:huier0127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,社交网络蓬勃发展,而微博作为其中的主流平台,网站业务种类和网络用户数量不断增加,微博网站产生的数据量呈现爆发式增长趋势。微博的海量数据中蕴藏着丰富的信息宝藏,可以通过大数据分析技术挖掘其中的有价值信息,发现网络舆情状况和社会热点话题,获取微博用户的兴趣爱好和情感诉求,了解微博信息的传播机制和规律。而Spark作为大数据分析技术中最为流行的分布式计算框架可以大大提高处理微博数据的速度。本文首先介绍了大数据分析的各种关键技术,然后根据微博的核心业务分析微博数据的主要特征,从多个方面梳理了微博数据分析的研究现状,接着介绍了微博数据分析的应用情况,说明运用大数据技术对微博数据进行研究分析具有实际价值。论文的重点工作是基于Spark设计和实现微博数据分析系统。本文首先从微博数据的快速采集、系统数据的有效存储、分析任务的丰富多样和分析结果的形象展示等方面考虑,结合大数据分析技术和微博数据的特点,设计了系统的总体架构。进一步详细阐述了系统按照功能划分出的数据采集模块、数据分析模块、数据存储模块和数据可视化模块这四个子模块的设计思路和具体流程。然后基于系统的整体架构和各模块的设计思路实现了微博数据分析系统,包括利用分布式爬虫框架和Flume实现数据采集模块,编写Spark应用程序实现数据分析模块,通过HDFS和HBase完成数据存储模块,基于Java Web框架构建数据可视化模块。最终整个系统在满足大数据处理需求的同时,能够完成微博数据的多种分析任务。
其他文献
笔者对2006—2016年,我国有关义务教育均衡发展研究的文献进行分析发现:研究成果在数量上与质量上都有很大的发展,为我国义务教育事业做出了不小的贡献,推动了我国义务教育的
体育比赛中,随着各运动项目技术的不断提高,运动员在比赛中表现出来的各种心理问题直接影响到运动员运动技术水平的发挥。如何在赛前以及赛中进行有效的心理调整以保证技术、战
目的:观察分析循证护理在预防胃癌患者化疗并发症中的效果。方法:本研究选取观察对象的方法为随机抽签法,从2014年2月至2015年2月期间应城市人民医院收治的胃癌患者中随机抽取82
<正>张爱玲与电影张爱玲不单是中国近现代文学史上重要的小说家,她还是一位目光犀利独特的影评家和剧作家。17岁在圣玛利亚女中读书的时候,她已经发表《论卡通画之前途》,并
目的探讨循证护理对胃癌患者化疗后相关并发症的影响。方法选择该院2012年9月至2013年9月112例胃癌患者,随机分为观察组和对照组,各56例。对照组患者采用常规护理,观察组患者
<正>弥赛亚(Messiah)是来自古犹太民族的一个传说;乌托邦,则是一个来自16世纪英国思想家托马斯·摩尔的政治理念。根据犹太教末世论预言,世界末日"来临时,弥赛亚将降临耶路撒
模拟法庭被认为是法律职业训练的有效方式。然而,缘于法条中心主义范式,现实司法过程中的非法律技术因素均被从模拟法庭里剔除了。这种对司法现实的过度裁减,导致模拟法庭对
文章介绍了CMOS中规模集成电路CC40110B的引脚及功能表.重点分析了用其实现带符号可逆计数器的工作原理图及其在电子电能表上的应用.
<正>了解文学经典的传播和接受情况是"文学生活"调查的主要方面,而大学生群体对文学经典的接受情况则构成了当前社会文学阅读的重要内容。为了了解当前大学生对文学经典的接
<正>一个人忧伤地坐在那里,头也不抬,低声说,那就讲讲年轻时候的故事吧。讲完了,无辜地看着你,依然是一脸的忧伤,仿佛又有些释怀:"衰老可能来得更慢一些吗?"这个人就是路内。