论文部分内容阅读
随着互联网技术的不断发展,社交网络在人们的日常生活中扮演着越来越重要的角色,同时也在改变着信息的传播方式,从原来的平面媒体与电视广播相结合到现在多元化平台的改变。人们获取热门信息和自己感兴趣的信息的方式也与社交网络变得越来越密不可分。伴随而来的是通过分析大量的用户数据对用户的各种行为进行深度挖掘,从而优化信息传递效率,节约人们从海量信息中提取对自身有价值信息的时间,并挖掘其潜在的巨大的商业价值。国外社交网络Facebook与Twitter的巨大成功也在很大程度上促进了国内社交网络平台的发展。本文以国内的热门社交网络平台新浪微博的用户信息与微博信息为研究对象,主要完成了以下四个方面的工作。第一,研究了目前比较流行的网络爬虫技术。通过比较和综合分析,设计并实现了一个分别对微博内容、用户信息、用户关系信息、微博关系信息等数据进行采集并存储,然后利用获取到的数据按需进行特征提取的数据采集系统。对于获取到的微博数据,根据数据之间的关联关系设计了相应的数据库。此外,在爬取数据的过程中,不仅使用多线程技术大幅提高了爬虫的工作效率,还设计了多APP Key复用机制,突破了新浪对API调用次数的限制,从而使爬虫系统可以持续工作运行。第二,为了对用户的转发行为进行预测,并找出对用户转发行为有重要影响的微博特征,本文通过研究新浪微博包括用户和微博内容在内的13项特征,进行机器学习,建立了特征分析模型,找出影响微博转发的重要因子。首次对特征因子组合进行研究,探求特征之间的关联程度。同时用不同的机器学习算法进行模型训练比较最后的预测结果,找出预测准确率最高的算法。第三,针对情感预测问题,建立了基于混合分类器的情感预测模型(Hybrid Classifier Sentiment Prediction Model,简称HCSPM)。该模型针结合四种常见的机器学习分类算法,提取了四个不同分类器的预测标签和预测得分,通过加权计算,对微博的情感分类进行预测。第四,为了对提高研究过程中的实验效率和对实验结果更加直观、准确的分析,本文设计了用户行为分析系统,结合了不同的分类算法,使得在分析用户行为时更加清晰和高效。综上,本文通过基于微博数据的爬取与处理,对微博用户的行为进行了分析,并在最后提出了今后进一步研究的主要方向。