基于Hadoop的微博用户影响力分析

来源 :山东大学 | 被引量 : 0次 | 上传用户：johnnyhljy

【摘要】

：

随着网民数量的增加和社交媒体的影响力日益扩大,新浪微博作为影响力较大的社交平台吸引了越来越多的公众参与,尤其是业界知名人士、人气明星的加入,更加增强了新浪微博的社

【作者】

：

王颖

【出处】

：

山东大学

【发表日期】

：

2018年期

【关键词】

：

Hadoop 分布式数据采集数据接入用户聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网民数量的增加和社交媒体的影响力日益扩大,新浪微博作为影响力较大的社交平台吸引了越来越多的公众参与,尤其是业界知名人士、人气明星的加入,更加增强了新浪微博的社会影响的力度和广度。在当今网民数量的不断增加、网络流量激增的互联网时代,应用大数据获取数据、分析数据、挖掘隐含信息已成为当下的热点之一。新浪微博的原始数据量较大,分析原始数据,发现其潜在价值已经成为深入了解用户的基础,为企业的精准营销、商业推广等方面提供了有力的技术支持。项目通过采集微博数据,基于影响力对用户进行分类,为个性化服务等方面提供了理论依据。项目主要包括三个模块,即数据采集模块、数据导入模块和数据分析模块。数据采集模块设计分布式采集架构,采集用户数据和微博数据。数据导入模块设计多种格式的数据源到Hadoop集群的接入方式,提高数据接入的鲁棒性。数据分析模块首先提取微博用户特征,设计用户影响力模型,实现K-MEANS接口,在博文魅力指数因子、用户行为因子、转发层次因子三个维度下对用户影响力进行聚类。数据采集模块基于Scrapy框架,设计代理IP子模块,提高了数据采集器抵抗反爬取的能力。数据导入模块设计异构数据源的接入方式,使用Sqoop组件、Shell脚本、Apache Flume等方式实现关系型数据库、非关系型数据库、文件系统到HDFS、Hive的数据接入。数据分析模块提取用户、微博特征,例如粉丝数、关注数、点赞数、评论数、转发数、转发深度等,首先得到聚类个数K,再实现Spark机器学习框架MLlib的K-MEANS接口,得到聚类结果。论文基于Hadoop开发了一个数据采集、数据分析平台。针对异构数据源格式,采用合适的数据接入工具,提高了数据接入的兼容性。设计并实现了用户聚类子模块,提供了离线数据的聚类分析能力。本文为数据采集、接入提供了思路,为基于用户影响力分析的商业营销等提供了理论依据。

其他文献

抑肝扶脾汤治疗腹泻型肠易激综合征的临床应用

[目的]探讨抑肝扶脾汤治疗腹泻型肠易激综合征的临床应用。[方法]通过分析腹泻型肠易激综合征的病机与治法,明确本病以肝郁脾虚为本,并在此基础上易损及心、肾。缕析肝郁脾虚

期刊

抑肝扶脾汤腹泻型肠易激综合征名中医验方肝郁脾虚肝脾不和中药配伍医案

中海油天津浮式LNG接收终端项目落户南疆港

本报讯（记者马波孙刚）由中国海洋石油气电集团有限公司、天津港（集团）有限公司、天津市燃气集团有限公司共同投资建设运营的浮式LNG接收终端项目落户南疆港。市委书记张高丽昨

报纸

探析胃肠道间质瘤的临床病理、免疫组织化学及分子检测

目的研究探讨临床病理、免疫组织化学以及分子检测在胃肠道间质瘤中的诊断特点。方法选取2015年6月至2018年6月在我院接受胃肠道间质瘤治疗的病患88例,所有病患均经手术病理

期刊

免疫组织化学胃肠道间质瘤分子检测

负压空化磨料水射流抛光机理与实验研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

磨料水射流超精密加工射流空化抛光加工表面粗糙度

西部中小学科技教育现状调查研究报告——以云南省新平县为例

对云南省新平县中小学科技教育实施状况的调查发现:新平县青少年科技教育一方面存在着教育机制不健全、师资力量薄弱、教育资源匮乏等诸多问题;另一方面,它结合地方实际,摸索

期刊

西部中小学科技教育

基于PPP模式的房地产去库存研究

分析房地产库存内涵,明确房地产库存的指标、界定房地产库存合理区间,阐述中国房地产库存现状及保障性住房的建设与需求现状。结合PPP模式的特点,提出PPP模式解决房地产库存

期刊

高库存PPP模式保障房

投资亏损的十大原因

五、缺乏自我控制$$　　期货市场是什么？是资金搏杀？是赌场？期货市场是人与人的游戏，决定输赢的最关键之处是投资者的心理。$$　　很多投资者在行情过后经常说：“我早看到要跌，可却

报纸

高中思想政治课教学情感态度与价值观目标的达成

《普通高中思想政治课程标准(实验)》确定了"三个维度"的教学目标,即知识与技能、过程与方法、情感态度与价值观。其中"情感态度与价值观"是促进学生全面发展的首要目标。然

期刊

思想政治课情感态度与价值观学生生活

我国马拉松运动员专项体能训练探讨

阐述马拉松运动员的专项体能训练特征,对有氧能力训练和速度能力训练提出建议,为进一步提高马拉松运动员体能水平提供参考。

期刊

马拉松体能有氧能力速度能力

“山水林田湖草”生态保护与修复的实施路径——以泰山区为例

期刊

山水林田湖草生态保护路径泰山区

基于Hadoop的微博用户影响力分析

其他学术论文