论文部分内容阅读
随着互联网进入web2.0时代,人们之间的交互性更加紧密,信息的传播也更加便捷。当前Facebook、twitter、新浪微博等社交媒体以爆炸式的发展壮大,冲击了传统的媒体形式,同时也带来了更多的学术问题,开创了新的学术领域,对科技工作者提出了新的要求。本文以新浪微博为实验数据来源,重点研究了在新形式新背景下,社会计算中涉及到的信息传播分析技术。首先介绍了课题的背景意义,网络已经进入信息化、社交化时代。大量的草根民众创造了更丰富精彩的媒体内容,更加扩充着本就海量的网络信息。面对新的形式,亟待需要新的技术与手段解决现实问题。接着介绍了新浪微博的有关数据获取的方法,我们可以通过新浪自身的API获取数据或是模仿web1.0时代编写网页爬虫。该网页爬虫属于―垂直‖爬虫,针对特定领域进行爬取。这里详细给出了模拟登陆、信息抽取的相关实现介绍。然后重点介绍了在新浪微博上信息的传播情况分析。信息在新浪微博上以树形的方式进行传播。本文给出了两种算法对这种树形结构进行还原生成。在该算法的指导下,笔者爬取并分析了大量的新浪微博信息的传播树,并给出相应的统计分析结果。最后介绍了基于上述技术实现的舆情监控系统。该系统以上述技术为依托,并采用丰富的可视化技术进行封装,较成功的实现了理论与实际的结合。本文结尾处给出了一些目前存在的问题,以及下一步发展的一些展望。