论文部分内容阅读
互联网飞速发展,网民规模不断增加,新型媒体不断涌现,使得网络舆情成为一股强大的舆论力量,影响着社会热点事件的发展,如果不能正确的引导,将严重威胁到社会公共安全。所以,挖掘网络舆情,将对搭建文明网络,稳定社会秩序,促进国家发展做出贡献。网络舆情挖掘大致包括舆情采集、话题发现和分析预测三步。其中,网络舆情数据的采集是重中之重,因为只有及时地采集到真实、可靠、完整的网络舆情数据,才能保证之后的深入分析真实、可靠、具有实际指导意义。本文主要研究的就是网络舆情数据采集技术,在分析了网络舆情及其来源的特点后,针对现有的网络舆情信息的采集技术存在的不足提出了改进方法。首先,网络舆情采集的工作是采集到同一主题事件网民言论,可以采用主题爬虫来实现。主题爬虫能够提取相关URL链接,预测下一步爬取的链接,从而有效地抓取与目标主题相关度高的网页,但是现有的主题爬虫在及时性和完整性上达不到舆情分析的要求,本文通过文献学习,理论上认识到使用隐马尔科夫模型(Hidden Markov Model, HMM)指导网络舆情采集是可行的,并对现有HMM爬虫进行分析,针对其不足,从网页训练集聚类策略、主题相关度判别算法和HMM建模方式三个方面提出了改进的方法,用来提高HMM爬虫的性能。其次,网络舆情的栖息地是微博、博客、论坛和新闻评论这样的新型网络载体,大多都采用了异步交互的AJAX技术来提高用户体验,导致传统爬虫无法采集到这些动态生成的信息,大大降低了网络舆情采集的覆盖率,为了解决这一问题,本文在HMM爬虫中增加了AJAX页面爬取单元,用以完成AJAX页面的网络舆情采集工作,完成了本文AHMM(AjaxHMM)爬虫的设计。最后,研究了开源系统Nutch,将改进后的能够爬取AJAX页面的HMM爬虫(AHMMCrawler)和Nutch系统结合使用,替换掉Nutch系统原有的爬虫系统,搭建了实验模型,列出了实验环境和详细的实验步骤,进行了对比实验,验证了本文理论的准确性和有效性,证明了本文设计AHMM爬虫不但具有重要的理论价值,而且有广阔的应用前景。