基于隐马尔科夫模型的网络舆情挖掘

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:beijingmonkey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网飞速发展,网民规模不断增加,新型媒体不断涌现,使得网络舆情成为一股强大的舆论力量,影响着社会热点事件的发展,如果不能正确的引导,将严重威胁到社会公共安全。所以,挖掘网络舆情,将对搭建文明网络,稳定社会秩序,促进国家发展做出贡献。网络舆情挖掘大致包括舆情采集、话题发现和分析预测三步。其中,网络舆情数据的采集是重中之重,因为只有及时地采集到真实、可靠、完整的网络舆情数据,才能保证之后的深入分析真实、可靠、具有实际指导意义。本文主要研究的就是网络舆情数据采集技术,在分析了网络舆情及其来源的特点后,针对现有的网络舆情信息的采集技术存在的不足提出了改进方法。首先,网络舆情采集的工作是采集到同一主题事件网民言论,可以采用主题爬虫来实现。主题爬虫能够提取相关URL链接,预测下一步爬取的链接,从而有效地抓取与目标主题相关度高的网页,但是现有的主题爬虫在及时性和完整性上达不到舆情分析的要求,本文通过文献学习,理论上认识到使用隐马尔科夫模型(Hidden Markov Model, HMM)指导网络舆情采集是可行的,并对现有HMM爬虫进行分析,针对其不足,从网页训练集聚类策略、主题相关度判别算法和HMM建模方式三个方面提出了改进的方法,用来提高HMM爬虫的性能。其次,网络舆情的栖息地是微博、博客、论坛和新闻评论这样的新型网络载体,大多都采用了异步交互的AJAX技术来提高用户体验,导致传统爬虫无法采集到这些动态生成的信息,大大降低了网络舆情采集的覆盖率,为了解决这一问题,本文在HMM爬虫中增加了AJAX页面爬取单元,用以完成AJAX页面的网络舆情采集工作,完成了本文AHMM(AjaxHMM)爬虫的设计。最后,研究了开源系统Nutch,将改进后的能够爬取AJAX页面的HMM爬虫(AHMMCrawler)和Nutch系统结合使用,替换掉Nutch系统原有的爬虫系统,搭建了实验模型,列出了实验环境和详细的实验步骤,进行了对比实验,验证了本文理论的准确性和有效性,证明了本文设计AHMM爬虫不但具有重要的理论价值,而且有广阔的应用前景。
其他文献
云南少数民族历史档案作为特色明显、原始记录性强的文化遗产,一直受到重视和保护。这些历史档案由各种不同的载体形式构成,其中手工纸载体占绝大部分,典型的有:纳西族东巴纸
通过对白集煤矿井下地温的调查,分析了地温的影响因素、危害,提出了热害的防治措施。
作为第一位华人艺术家在泰特美术馆参加展出的崔岫闻,也是中国最具国际影响力的当代女性艺术家之一,她视角尖锐,作品寓意深邃,她致力于关注女性的社会境遇,向社会提出问题,富有想象
在实施乡村振兴战略的背景下,为了更好地发展农村集体经济,需要统筹分析各个地区的实际情况,让农村资源的优势作用充分凸显出来。本文具体论述乡村振兴战略背景下农村集体经
目的:探讨各种因素对流动儿童性健康的影响,并找出关键的影响因素,旨在为减少影响流动儿童健康成长的不良因素,降低其今后不良性行为的发生,避免遭受性侵害,发生恶性性犯罪,提
近年来,宁陵县高度重视科技工作,把科技特派员作为提升产业科技含量的有效举措,取得了显著成效。加强领导,建立机制宁陵县委、县政府成立了高规格科技特派员助力脱贫攻坚工作