论文部分内容阅读
随着网民数量的增加和社交媒体的影响力日益扩大,新浪微博作为影响力较大的社交平台吸引了越来越多的公众参与,尤其是业界知名人士、人气明星的加入,更加增强了新浪微博的社会影响的力度和广度。在当今网民数量的不断增加、网络流量激增的互联网时代,应用大数据获取数据、分析数据、挖掘隐含信息已成为当下的热点之一。新浪微博的原始数据量较大,分析原始数据,发现其潜在价值已经成为深入了解用户的基础,为企业的精准营销、商业推广等方面提供了有力的技术支持。项目通过采集微博数据,基于影响力对用户进行分类,为个性化服务等方面提供了理论依据。项目主要包括三个模块,即数据采集模块、数据导入模块和数据分析模块。数据采集模块设计分布式采集架构,采集用户数据和微博数据。数据导入模块设计多种格式的数据源到Hadoop集群的接入方式,提高数据接入的鲁棒性。数据分析模块首先提取微博用户特征,设计用户影响力模型,实现K-MEANS接口,在博文魅力指数因子、用户行为因子、转发层次因子三个维度下对用户影响力进行聚类。数据采集模块基于Scrapy框架,设计代理IP子模块,提高了数据采集器抵抗反爬取的能力。数据导入模块设计异构数据源的接入方式,使用Sqoop组件、Shell脚本、Apache Flume等方式实现关系型数据库、非关系型数据库、文件系统到HDFS、Hive的数据接入。数据分析模块提取用户、微博特征,例如粉丝数、关注数、点赞数、评论数、转发数、转发深度等,首先得到聚类个数K,再实现Spark机器学习框架MLlib的K-MEANS接口,得到聚类结果。论文基于Hadoop开发了一个数据采集、数据分析平台。针对异构数据源格式,采用合适的数据接入工具,提高了数据接入的兼容性。设计并实现了用户聚类子模块,提供了离线数据的聚类分析能力。本文为数据采集、接入提供了思路,为基于用户影响力分析的商业营销等提供了理论依据。