基于新浪微博数据的处理与用户行为分析

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:liu7605136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,社交网络在人们的日常生活中扮演着越来越重要的角色,同时也在改变着信息的传播方式,从原来的平面媒体与电视广播相结合到现在多元化平台的改变。人们获取热门信息和自己感兴趣的信息的方式也与社交网络变得越来越密不可分。伴随而来的是通过分析大量的用户数据对用户的各种行为进行深度挖掘,从而优化信息传递效率,节约人们从海量信息中提取对自身有价值信息的时间,并挖掘其潜在的巨大的商业价值。国外社交网络Facebook与Twitter的巨大成功也在很大程度上促进了国内社交网络平台的发展。本文以国内的热门社交网络平台新浪微博的用户信息与微博信息为研究对象,主要完成了以下四个方面的工作。第一,研究了目前比较流行的网络爬虫技术。通过比较和综合分析,设计并实现了一个分别对微博内容、用户信息、用户关系信息、微博关系信息等数据进行采集并存储,然后利用获取到的数据按需进行特征提取的数据采集系统。对于获取到的微博数据,根据数据之间的关联关系设计了相应的数据库。此外,在爬取数据的过程中,不仅使用多线程技术大幅提高了爬虫的工作效率,还设计了多APP Key复用机制,突破了新浪对API调用次数的限制,从而使爬虫系统可以持续工作运行。第二,为了对用户的转发行为进行预测,并找出对用户转发行为有重要影响的微博特征,本文通过研究新浪微博包括用户和微博内容在内的13项特征,进行机器学习,建立了特征分析模型,找出影响微博转发的重要因子。首次对特征因子组合进行研究,探求特征之间的关联程度。同时用不同的机器学习算法进行模型训练比较最后的预测结果,找出预测准确率最高的算法。第三,针对情感预测问题,建立了基于混合分类器的情感预测模型(Hybrid Classifier Sentiment Prediction Model,简称HCSPM)。该模型针结合四种常见的机器学习分类算法,提取了四个不同分类器的预测标签和预测得分,通过加权计算,对微博的情感分类进行预测。第四,为了对提高研究过程中的实验效率和对实验结果更加直观、准确的分析,本文设计了用户行为分析系统,结合了不同的分类算法,使得在分析用户行为时更加清晰和高效。综上,本文通过基于微博数据的爬取与处理,对微博用户的行为进行了分析,并在最后提出了今后进一步研究的主要方向。
其他文献
目的总结分析过敏性鼻炎合并支气管哮喘护理中应用针对性护理干预的效果。方法对本院2019年1月~2020年1月收治的50例过敏性鼻炎合并支气管哮喘患者用掷硬币法均分为参照组和
创新,是现代社会新人的个性和能力特质,培养创新人才是时代的需要,是实施素质教育的要求。以培养创新能力和实践能力为重点,最大限度地调动学生的积极主动性,使学生学好知识
殷小烽的创作通过宗教回到精神生活的源头,回到最初的那种存在状态.他通过对传统精神的发掘,确定了自己基本的创作路径.这既是一种"来自远方的呼唤",也是一个民族心灵的呼唤.今
1病案 患者,女,48岁,因腹胀,暖气,恶心,前来我院就诊。医师诊断为胃动力不足而引起的消化不良,给予吗丁啉(西安杨森制药有限公司,批号为060207811)口服,每次1片,每日3次,饭前15~30分钟服用
人参(Panax ginseng C.A.Mey)属五加科人参属多年生药用植物,以根入药,具大补元气、复脉固脱、补脾益肺、生津养血、安神益智等功效。中国东北地区是人参道地产区,近年来随着
一、A企业全面预算管理体系架构建立为了更好地配置企业的各项资源以及量化经营决策的各项目标,A企业的领导层基于预算的理念,推动企业的每名员工都尽最大努力完成具体目标的过
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近几年正值国内并购蓬勃发展,而在机械设备制造企业并购财务尽职调查过程中,有一些需要重点关注的事项,可能会直接影响并购决策。
系统分析了隧道涌水量预测的方法,并用数值模拟方法进行了某隧道涌水的预测研究,认为数值模拟方法是进行隧道涌水量预测的有效方法。
随着素质教育的不断发展,培养小学生德、智、体、美、劳等方面的综合素养已经成为教学过程中的重点内容。小学体育课程的开展能有效培养并发展学生的德、智、体、美、劳,但是