基于Hadoop的微博用户影响力分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:johnnyhljy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网民数量的增加和社交媒体的影响力日益扩大,新浪微博作为影响力较大的社交平台吸引了越来越多的公众参与,尤其是业界知名人士、人气明星的加入,更加增强了新浪微博的社会影响的力度和广度。在当今网民数量的不断增加、网络流量激增的互联网时代,应用大数据获取数据、分析数据、挖掘隐含信息已成为当下的热点之一。新浪微博的原始数据量较大,分析原始数据,发现其潜在价值已经成为深入了解用户的基础,为企业的精准营销、商业推广等方面提供了有力的技术支持。项目通过采集微博数据,基于影响力对用户进行分类,为个性化服务等方面提供了理论依据。项目主要包括三个模块,即数据采集模块、数据导入模块和数据分析模块。数据采集模块设计分布式采集架构,采集用户数据和微博数据。数据导入模块设计多种格式的数据源到Hadoop集群的接入方式,提高数据接入的鲁棒性。数据分析模块首先提取微博用户特征,设计用户影响力模型,实现K-MEANS接口,在博文魅力指数因子、用户行为因子、转发层次因子三个维度下对用户影响力进行聚类。数据采集模块基于Scrapy框架,设计代理IP子模块,提高了数据采集器抵抗反爬取的能力。数据导入模块设计异构数据源的接入方式,使用Sqoop组件、Shell脚本、Apache Flume等方式实现关系型数据库、非关系型数据库、文件系统到HDFS、Hive的数据接入。数据分析模块提取用户、微博特征,例如粉丝数、关注数、点赞数、评论数、转发数、转发深度等,首先得到聚类个数K,再实现Spark机器学习框架MLlib的K-MEANS接口,得到聚类结果。论文基于Hadoop开发了一个数据采集、数据分析平台。针对异构数据源格式,采用合适的数据接入工具,提高了数据接入的兼容性。设计并实现了用户聚类子模块,提供了离线数据的聚类分析能力。本文为数据采集、接入提供了思路,为基于用户影响力分析的商业营销等提供了理论依据。
其他文献
[目的]探讨抑肝扶脾汤治疗腹泻型肠易激综合征的临床应用。[方法]通过分析腹泻型肠易激综合征的病机与治法,明确本病以肝郁脾虚为本,并在此基础上易损及心、肾。缕析肝郁脾虚
本报讯(记者 马波 孙刚)由中国海洋石油气电集团有限公司、天津港(集团)有限公司、天津市燃气集团有限公司共同投资建设运营的浮式LNG接收终端项目落户南疆港。市委书记张高丽昨
报纸
目的研究探讨临床病理、免疫组织化学以及分子检测在胃肠道间质瘤中的诊断特点。方法选取2015年6月至2018年6月在我院接受胃肠道间质瘤治疗的病患88例,所有病患均经手术病理
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
对云南省新平县中小学科技教育实施状况的调查发现:新平县青少年科技教育一方面存在着教育机制不健全、师资力量薄弱、教育资源匮乏等诸多问题;另一方面,它结合地方实际,摸索
分析房地产库存内涵,明确房地产库存的指标、界定房地产库存合理区间,阐述中国房地产库存现状及保障性住房的建设与需求现状。结合PPP模式的特点,提出PPP模式解决房地产库存
五、缺乏自我控制$$  期货市场是什么?是资金搏杀?是赌场?期货市场是人与人的游戏,决定输赢的最关键之处是投资者的心理。$$  很多投资者在行情过后经常说:“我早看到要跌,可却
报纸
《普通高中思想政治课程标准(实验)》确定了"三个维度"的教学目标,即知识与技能、过程与方法、情感态度与价值观。其中"情感态度与价值观"是促进学生全面发展的首要目标。然
阐述马拉松运动员的专项体能训练特征,对有氧能力训练和速度能力训练提出建议,为进一步提高马拉松运动员体能水平提供参考。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield