海量web舆情挖掘算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zy1yi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
web舆情是互联网上围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度,它主要以论坛、博客、新闻跟帖为载体。由于网络舆论的自由性和随意性,越来越多的网民乐意借助论坛、博客、新闻跟帖等方式发表观点、相互交流。网民凭借互联网高度开放自由的优势,对社会发展中的种种问题畅所欲言,能在极短时间内凝聚共识,诱发行动,影响社会。然而由于网民阅历和思想认识水平的局限性,很难在短时间内理清事情背后复杂的社会和心理动因,非理性和过于主观的声音经常容易占据上风,从一系列突发事件来看,网民通过网络爆发出的舆论能量不容忽视。在互联网影响力日益增大的今天,互联网已成为思想文化的集散地和社会舆论的放大器,web舆情变得越来越重要。各级党政机关、企事业单位和学术机构都越来越重视互联网舆情的监测、研究和引导。我们要充分认识以互联网为代表的新兴媒体的社会影响力。因此,快速、准确的发现web舆情并对web舆情进行有效监控势在必行。目前最大的信息系统web,其数据具有海量、多样、异构、动态变化等特性。这样使得依靠人工的方法难以应对海量web信息的收集和web舆情的发现。本文为了解决上述问题,对web信息的采集和web舆情的发现进行了学习和研究。研究的主要内容包括:网络爬虫技术,并行计算技术,数据划分技术,web舆情发现技术。首先,在研究现有爬虫技术的基础上,设计了一种可更改策略的网络爬虫系统,该爬虫以通用爬虫为主体进行爬行,并能更改爬行时间和爬行方式,从而使爬虫更加友好并能有效利用网络资源。接着,对web舆情发现进行了研究,提出了一种基于两层结构的分类方法,试验证明,本文提出的分类算法具有较好的准确性和实用性。同时,利用基于最大频繁词集的数据划分方法对传统的凝聚式层次聚类算法进行了并行化实现。然后,将基于最大频繁词集的数据划分方法在HADOOP平台上进行了实现,测试结果说明HADOOP在处理大规模数据时具有明显的优势。最后,根据上述研究工作,设计并实现了一个web舆情发现系统,该系统集可更改策略的爬虫与web舆情发现于一体,具有友好的界面,可以对web信息进行有效的采集,并能较准确地发现web舆情。
其他文献
财务稽核是企业实现规范化财务系统管理的有效措施,实施财务稽核能够充分保证企业所获得的财务信息详细、准确、实时、全面。基于此,本文将着重分析探讨电力供电企业内控中的
伴随着信息时代的迅速发展,新课改的不断深入,对高中英语教学也提出了新的要求。英语教师在教学中开始应用微课,通过生动的视频、图片等资源,来激发学生对英语知识内容学习的兴趣。同时,学生可以利用空余时间自主地学习英语知识,有助于学生英语自主学习能力的提升。从而微课在高中英语教学中的应用,有效地增强了教学的效果,确保了高中英语教学的质量,提高了高中英语教学的时效性。  1. 高中英语教学中微课的设计  微
猕猴桃(Kiwifruit)属猕猴桃科,落叶木质藤本,在我国分布广泛。猕猴桃的根或根皮含有多糖及苷类,萜类成分,鞣质,甾体、黄酮类等化学成分,具有健胃、清热、解毒、利湿、祛风的
宫颈癌是仅次于乳腺癌的女性第二大常见恶性肿瘤,目前正出现年轻化趋势,严重危害广大妇女的身心健康。随着高危型人乳头瘤病毒(HPV)与宫颈癌因果关系的确立和HPV疫苗的开发与
以低品位软锰矿为研究对象,采用电解锰硫化渣浸出其中的锰,考察了搅拌速率、液固比、温度、硫化渣用量、硫酸用量和反应时间对锰浸出率的影响。结果表明,在搅拌速率为400 r/m
本文以EKB模式作为理论框架,以AIO生活形态变量作为市场细分的基础,以产品属性与人口统计变量作为投入变数,把消费者的具体行为、态度变量作为消费行为的描述因素,将美式家具
做好精准扶贫工作必须高度重视返贫问题,防止返贫的根本策略是激发脱贫人员摆脱贫困的意识与能力;核心策略在于发挥政府主导作用,提供政策制度支撑;重要策略是倡导社会力量参
财务稽核的概念是企业的财务人员将原始凭证、会计凭证、会计账簿以及会计报表等等的资料的稽核工作,旨在将会计信息质量提高,最大程度的避免财务的错漏而导致企业风险,对企
根据现阶段教育事业的迅速发展,在高中的英语教学过程中阅读教学有着重要的作用,它可以有效地培养学生阅读能力、开阔学生的知识视野、提高学生的综合语言运用能力。高中英语教师必须跟随教育事业的发展潮流,在高中英语阅读教学基础上,进一步地挖掘高中教材内容,不断地创新与学习,积极地培养学生在英语阅读方面的核心素养。  随着近几年在新课改的背景下,英语教育领域中的热点话题基本都与培养学生的核心素养方面有关。而英