基于论坛的舆情分析系统设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jincast
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的进步,互联网已经成为人们获取信息的主要手段。一方面,对于某一话题事件,相关的信息出现在互联网的各个分散的角落,通过人工的手段无法获知话题事件完整信息;另一方面,网民通过互联网参与国家事务管理、发表评论意见的热情空前高涨,一个很小的事件就可能引发一个舆情事件,因此迫切要求监管者及时掌握舆情话题的发展态势,有效梳理民意,及时做出正确的处理。本系统利用自然语言处理技术,自动发现并跟踪相关的话题事件,了解网民的关注热度及倾向,最后生成一个关于话题的舆情统计报告。具体的研究内容包括以下几个方面:第一:实现了基于论坛的信息抽取工作。本系统是一个小型的试验系统,没有追求庞大的信息覆盖,而是选择有代表性的“新华网论坛”作为舆情信息源,经过信息抽取后的论坛信息以xml格式存储。第二:介绍了基于两层聚类和周期分类相结合的TDT实现方法。传统的增量式聚类由于话题模型覆盖不够全面、表示不够准确,从而导致在增量处理过程中误差被累计放大,本文引入了周期分类,定期对增量聚类所产生话题的边缘文本重新分类,提高话题的纯度,最终达到降低误差、提升性能的目的。第三:介绍了基于HowNet和依存句法分析的情感倾向处理技术。本文通过人工方式建立一个情感词典,并通过基于Hownet语义相似度的方法计算未登录情感词的情感倾向和强度,然后根据依存句法分析确定情感词的真实上下文情感倾向,进而确定句子、文本以及话题的情感倾向。第四:设计并实现了一个完整的基于论坛的网络舆情系统。整个系统包括信息抽取子系统、TDT子系统、话题倾向性子系统以及舆情展示子系统。
其他文献
社会媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台。微博(Micro-blogs)是通过某个社会媒体——如推特(Twitter)或新浪微博——分享的不超过140个字符的文
为了模拟一些在普通情况下无法获得或很难获得的实验数据,比如大型公共场所的踩踏拥挤事件等,需要能够精确地对真实场景中的群体运动进行建模。这些事故的发生本身具有不可预
随着互联网的不断发展,网络信息量日益增加,面对海量的信息,人们对搜索引擎在查全率,查准率以及个性化方面的要求越来越高。查询扩展是个性化智能搜索引擎中的关键技术,它在搜索引
随着时代的发展,网络技术和多媒体技术也迅速的发展起来。通过简单的网上操作,人们可以轻易地获取、发布和传输多媒体数字信息。然而,由于数字作品具有容易篡改、仿造和操作难以
人体动作识别是计算机视觉领域研究的热点问题,在智能机器人、视频监控等智能化系统中有着广泛的应用。由于人体运动本身以及运动场景的复杂性,人体动作识别仍然面临着诸多困
microRNA (miRNA)是一类长度为22nt左右的内源性非编码RNA,通过碱基序列互补配对的方式对靶标mRNA的表达进行调控,从而控制基因的表达。基因的异常性表达成为多种疾病发生的重
随着医学影像技术的迅速发展,医学影像逐渐成为临床医疗的一种主要辅助手段,很大程度上提高了医生的确诊率。当前针对医学图像的分割主要将重点置于核磁共振图像(MRI)。脑部
信息产业的高度融合与快速发展,特别是嵌入式技术及网络通信技术的蓬勃发展,推动了远程监控技术的革新。这些发展与革新为现代社会的生产生活能够实施数字化的网络监控提供了有
最优化是目前科学计算中较为重要的研究分支,随着科技的发展,工程技术领域诸如通讯系统、自动控制、电力系统、机械工程、土木工程、生物工程、化学工程等产生了诸多复杂的最优
随着移动互联网的发展,虽然传统的TCP/IP网络已经能够在大范围内满足信息传输的需求,但是仍然有一部分地区的网络基础设施不是很完善。在这样的情况下使用传统的TCP/IP网络则不