论文部分内容阅读
随着互联网的日益普及,网络媒体作为新兴媒体在广大群众,尤其是年轻一代人群中得到迅速推广。人们获得信息的时效性空前提高,由此带来的网络舆情不确定性也大为提高。在此背景下,人们的思想在海量信息的冲击下会产生很大的波动。网络空间容易成为境内外反动势力利用的工具,从而引发社会的动荡,危害国家和社会的稳定。境内外反动势力发起的舆论战,早已蔓延到网络空间,成为日益激烈的主战场。面对网络舆论战,对网络舆情进行研究,及时发现舆情并有针对性的进行预警具有十分重要的意义。本文从WEB挖掘和文本分析两方面,对动态网络舆情预警进行了研究。研究包括了网络舆情的采集、分词、聚类和情感倾向性分析,目的是能够及时发现特定领域内的网络舆情并判断其严重性和发展趋势。本文以WEB挖掘为网络舆情分析的主要方法,提出了网络舆情分析的模型。针对网络舆情特点,通过对WEB文本进行文本分析,计算出文本的情感倾向,从而为网络舆情预警提供依据。本文的主要工作为:1、网络爬虫算法。分析网络舆情首先需要得到网络上的有关数据,需要通过网络爬虫来获取网络数据信息。本文通过分析,结合WEB挖掘,提出以主题爬虫作为网络舆情数据采集的方法,提高了数据采集的准确性。2、文本分词。分词作为文本分析的第一步存在其技术难点:中文分词。本文通过对各种分词方法的比较,结合体现网络舆情的WEB文本特点,引入多字词字典,提出了改进的最大匹配分词法,提高了分词的准确性与效率。3、聚类算法。本文在网络舆情分析中提出通过聚类,先对WEB文本进行初级分类。经过对各种文本聚类算法的比较和分析,针对体现网络舆情的WEB文本所具有的共性特点,通过加入标志文本集,对K-MEANS算法进行了改进,提高了聚类的准确性和效率。4、文本情感倾向性研究。作为对网络舆情的分析最终得出的结论,文本情感倾向性研究有很多方法。本文分析了文本情感倾向性研究的各种方法后,选择了效果较好的朴素贝叶斯分类法,提出了模式匹配与基于属性权重朴素贝叶斯分类器结合的情感倾向性分析方法,提高了情感分类的效率。