面向海量短文本的舆情系统实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:huangmajun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和通信技术的蓬勃发展,网络信息安全问题日益突出,同时网络舆情监控也变得尤为重要,舆情监控已经变成各级政府非常关心的问题。现如今各式各样的舆情分析系统层出不穷,大多基于互联网新闻或者BBS作为数据对象。本课题基于项目需求,采用短信息作为数据对象,提出了一套面向海量短文本的实时舆情分析系统设计与实现。其中主要工作和创新点如下:   第一,提出了一系列改进的针对短文本的舆情分析方法。本文面向短文本信息进行舆情分析,与传统的互联网新闻及BBS舆情分析的数据对象不同,短文本短小精干,传统的文本过滤方法往往不能起到良好的效果。本文针对项目具体功能需求并结合传统舆情分析算法,提出了一些改进的高效的舆情分析算法,包括简化贝叶斯分类和热点话题发现等;本文还提出了采用中文变体词识别技术用于短文本舆情分析的方法,取得了不错的效果。   第二,提出了一个针对具体系统的并行处理框架。本文面向海量信息的实时分析,对系统性能提出了很高的要求。本文提出了一种基于均衡分发策略配合分布式并行处理的整体系统架构,使得整个系统的性能具有可伸缩性。整体系统实现依赖于本文提出的可拆分的舆情分析算法,使得并行计算成为可能,经过实验,系统性能达到了需求。   第三,提出了一套分布式并行存储方案。针对海量短文本的存储以及运算中间结果的保存,本文提出了一套基于MongoDB分布式文件系统的存储方案。MongoDB适合短文本的存储,基于key-value机制提供了优于传统关系型数据库的存取性能。本文设计了一套针对系统实现的拆表方案,使得数据的存取更便捷,占用空间更少,这也是整个系统得以快速运转的基础。
其他文献
认知无线电技术是缓解当前频谱资源紧缺问题的一项关键技术。在认知无线电系统中,认知用户可以通过对周围频谱环境进行感知获得可用频谱资源,并在不影响主用户正常通信的前提
在三网融合的大背景下,交互电视越来越得到普及,在观看交互电视时,对节目相关信息的需求越来越受到人们关注。节目相关信息是那些跟频道和节目内容密切相关且人们想获取的信
各种心血管疾病均可导致心肌损害,β、β-AR在其发生发展中起着重要作用,主要表现为受体敏感度和数量的改变,从而使心肌收缩反应性下降。最近研究表明,在卵巢切除的大鼠(Ovaricct
我们发现这样的规律:家庭往往才是孩子命运的源头,学校教育往往对孩子无可奈何。要改变孩子命运,必须改变家长。家长在纵容恶习,教师在改造恶习,谁的力量大呢?对于蒙昧的孩子,家长的力量大得多,教师往往爱莫能助。孩子沦为吃喝玩乐的奴隶,必然欢迎家长的娇惯,而拒绝教师的教育。就是觉醒的教育,在当今世界,仍孤力无援,教育的力量实在微小。所谓“没有教育不好的孩子”,只不过是一种信仰和追求,事实上难以实现。  问
期刊
近年来,无线多媒体业务发展迅速,人们迫切需要在不稳定的无线媒介上传输有服务质量保证的多媒体数据,而且移动自组织网络(Mobile Ad hoc Network, MANET)的拓扑结构动态变化,
网络演算是分析网络性能时的一种十分有效的方法,特别是在分析网络的时延特性和网络缓存队列长度方面有非常好的效果。网络演算在计算机网络的分析方面已经得到了广泛的应用,
随着IP技术和多媒体技术的不断发展,网络带宽的不断增加,更高速的数据业务成为了现实,近年来视频流业务在全球迅速发展成为固定电信运营商收入的新增长点,开始向广大受众提供
监控视频分析和智能交通是当前热门的研究领域,具有广泛的应用需求,本文实现了监控视频行人运动分析系统和道路监控场景中的实时车型分类系统。监控设备的发展,使得视频监控
光无线通信是一种新型的基于光传播的通信系统。该技术具有高带宽、低辐射、不占用有限的射频频段的特点,因此越来越受到国内外的重视,是未来通信的重要研究方向。其中,日盲
学位