论文部分内容阅读
web舆情是互联网上围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度,它主要以论坛、博客、新闻跟帖为载体。由于网络舆论的自由性和随意性,越来越多的网民乐意借助论坛、博客、新闻跟帖等方式发表观点、相互交流。网民凭借互联网高度开放自由的优势,对社会发展中的种种问题畅所欲言,能在极短时间内凝聚共识,诱发行动,影响社会。然而由于网民阅历和思想认识水平的局限性,很难在短时间内理清事情背后复杂的社会和心理动因,非理性和过于主观的声音经常容易占据上风,从一系列突发事件来看,网民通过网络爆发出的舆论能量不容忽视。在互联网影响力日益增大的今天,互联网已成为思想文化的集散地和社会舆论的放大器,web舆情变得越来越重要。各级党政机关、企事业单位和学术机构都越来越重视互联网舆情的监测、研究和引导。我们要充分认识以互联网为代表的新兴媒体的社会影响力。因此,快速、准确的发现web舆情并对web舆情进行有效监控势在必行。目前最大的信息系统web,其数据具有海量、多样、异构、动态变化等特性。这样使得依靠人工的方法难以应对海量web信息的收集和web舆情的发现。本文为了解决上述问题,对web信息的采集和web舆情的发现进行了学习和研究。研究的主要内容包括:网络爬虫技术,并行计算技术,数据划分技术,web舆情发现技术。首先,在研究现有爬虫技术的基础上,设计了一种可更改策略的网络爬虫系统,该爬虫以通用爬虫为主体进行爬行,并能更改爬行时间和爬行方式,从而使爬虫更加友好并能有效利用网络资源。接着,对web舆情发现进行了研究,提出了一种基于两层结构的分类方法,试验证明,本文提出的分类算法具有较好的准确性和实用性。同时,利用基于最大频繁词集的数据划分方法对传统的凝聚式层次聚类算法进行了并行化实现。然后,将基于最大频繁词集的数据划分方法在HADOOP平台上进行了实现,测试结果说明HADOOP在处理大规模数据时具有明显的优势。最后,根据上述研究工作,设计并实现了一个web舆情发现系统,该系统集可更改策略的爬虫与web舆情发现于一体,具有友好的界面,可以对web信息进行有效的采集,并能较准确地发现web舆情。