基于WEB挖掘和文本分析的动态网络舆情预警研究

来源 :武汉理工大学 | 被引量 : 15次 | 上传用户:wooool123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及,网络媒体作为新兴媒体在广大群众,尤其是年轻一代人群中得到迅速推广。人们获得信息的时效性空前提高,由此带来的网络舆情不确定性也大为提高。在此背景下,人们的思想在海量信息的冲击下会产生很大的波动。网络空间容易成为境内外反动势力利用的工具,从而引发社会的动荡,危害国家和社会的稳定。境内外反动势力发起的舆论战,早已蔓延到网络空间,成为日益激烈的主战场。面对网络舆论战,对网络舆情进行研究,及时发现舆情并有针对性的进行预警具有十分重要的意义。本文从WEB挖掘和文本分析两方面,对动态网络舆情预警进行了研究。研究包括了网络舆情的采集、分词、聚类和情感倾向性分析,目的是能够及时发现特定领域内的网络舆情并判断其严重性和发展趋势。本文以WEB挖掘为网络舆情分析的主要方法,提出了网络舆情分析的模型。针对网络舆情特点,通过对WEB文本进行文本分析,计算出文本的情感倾向,从而为网络舆情预警提供依据。本文的主要工作为:1、网络爬虫算法。分析网络舆情首先需要得到网络上的有关数据,需要通过网络爬虫来获取网络数据信息。本文通过分析,结合WEB挖掘,提出以主题爬虫作为网络舆情数据采集的方法,提高了数据采集的准确性。2、文本分词。分词作为文本分析的第一步存在其技术难点:中文分词。本文通过对各种分词方法的比较,结合体现网络舆情的WEB文本特点,引入多字词字典,提出了改进的最大匹配分词法,提高了分词的准确性与效率。3、聚类算法。本文在网络舆情分析中提出通过聚类,先对WEB文本进行初级分类。经过对各种文本聚类算法的比较和分析,针对体现网络舆情的WEB文本所具有的共性特点,通过加入标志文本集,对K-MEANS算法进行了改进,提高了聚类的准确性和效率。4、文本情感倾向性研究。作为对网络舆情的分析最终得出的结论,文本情感倾向性研究有很多方法。本文分析了文本情感倾向性研究的各种方法后,选择了效果较好的朴素贝叶斯分类法,提出了模式匹配与基于属性权重朴素贝叶斯分类器结合的情感倾向性分析方法,提高了情感分类的效率。
其他文献
针对53式7.62 mm口径穿甲燃烧弹对圆筒型陶瓷-钛合金-芳纶三单元层复合靶板结构的侵彻过程,本文开展了抗弹性能数值模拟研究.模拟结果表明,弹体垂直入射将造成陶瓷块开裂破碎
目前全球航运市场持续低迷的现状还未见好转,对于船舶类企业需要面对国内市场以及国际市场更多的挑战,如何控制好成本,增加企业盈利显得尤为重要。船舶企业固定资产的特点品
目前,企业内部数据中心基础设施的容量正逐步到达扩容的临界点,传统的IT建设由于建设扩容成本高、系统利用率低、建设部署周期长、系统扩展能力差等问题,大大制约了企业IT系
以实验采集的起步工况驾驶数据为基础,利用PCA分析筛选出驾驶员在起步工况下的风格特征参数,采用GMM聚类算法对起步工况下的驾驶数据进行分析.以驾驶风格聚类分析结果为基础
海洋是世界上最大的资源库,如何更好的开发和利用海洋是各个临海国家的重要研究课题。船舶、海上石油钻井平台等各种开发海洋的工具长期以来饱受海洋污损生物的侵害,诸如:藻类
为揭示最小抵抗线(W)对台阶模型爆破效果的影响,利用相似准则原理加工混凝土台阶模型进行爆破试验,并采用高速摄影系统、瞬态信号测量仪以及超动态应变测试仪等对爆破效果进
研究传统名贵傣药龙血竭中有效成分龙血素B在大鼠体内重要组织的分布情况,同时探讨长期模拟失重效应对龙血素B分布的潜在影响.将SD大鼠分为正常重力组和模拟失重效应组,采用2
近年来,物联网和移动互联网的兴起,给条码技术的发展带来了新的契机。以QR码、PDF417码为代表的二维条码获得广泛的应用。从拍摄图像中定位识别二维条码亦获得业界和科研院所
随着我国社会经济的发展,推动了我国社会经济发展的进步。在近年来,随着"营改增"在我国的全面实行,所涉及到的行业相当广泛,对于我国多数企业来说有着十分积极的意义,减少了
伪造行为自古有之,行为人通过不同方法对各种事物进行伪造。但是,并不是所有的伪造都是刑法中的伪造行为。刑法中的伪造行为应该是符合构成要件的行为,会严重损害社会公共信用。