突发事件网络舆情数据采集与抽取技术研究

来源 :解放军信息工程大学 | 被引量 : 2次 | 上传用户:nnnnnnnxxxxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的飞速发展,网络空间因其交互性、即时性和开放性的特点已经成为人们交流意见、宣泄情感的首选平台,以及突发事件相关信息和网络舆情第一时间出现和传播扩散的媒介。互联网异构、动态的海量信息环境和突发事件难以预测、传播快捷、影响广泛的显著特点,给传统网络舆情获取技术带来新的挑战。突发事件网络舆情数据采集与抽取技术能够从互联网上自动采集大量突发事件网络舆情相关网页,并从中自动抽取出舆情数据,对突发事件网络舆情信息的监测和预警具有重要意义。本文对突发事件网络舆情数据采集与抽取技术进行研究,主要包括:突发事件网络舆情数据采集技术、网络舆情载体类型识别技术和突发事件网络舆情数据抽取技术。论文主要研究成果如下:(1)为及时准确地获取监测网站的突发事件网络舆情数据,本文提出了一种基于站点地图的突发事件网络舆情数据采集方法。该方法首先构建出含有监测网站各版块突发事件热度的站点地图;接着在站点地图的指导下,对采集任务队列进行优化和适时更新;最后借用主题采集技术实现了突发事件网络舆情相关网页的采集。实验结果表明,该方法能够自动调整更新频率,及时地采集所需网页,较好地适应监测网站结构的动态变化。(2)针对现有网页识别方法识别准确率不高的问题,本文提出了基于综合特征的网络舆情载体类型自动识别算法。该算法首先引入频率差法和回归特征消去法分别对特征较多的内容特征和结构特征进行了特征选择,构建了面向网络舆情载体类型识别的特征集;接着提取了网页的超链接特征、内容特征和结构特征用于表示网络舆情载体;最后采用SVM分类器对网络舆情载体类型进行识别。实验结果表明,该算法能够准确识别网络舆情载体的类型。(3)为克服Web论坛评论抽取中存在较多噪声和数据不等长等复杂的问题,本文提出了一种论坛类网页的突发事件网络舆情数据抽取方法。该方法首先依据Web论坛评论网页的特有的结构和特征,自动识别出数据区域;接着对数据区域中的评论进行噪声滤除与评论边界判定,随后自动生成模板用于新网页的评论抽取;最后利用统计信息和少量规则,从评论中抽取出所需舆情数据。实验结果表明,该算法具有良好的通用性,较高的准确率、召回率和抽取效率。
其他文献
“住有所居”向来是人们定义幸福生活最基本的要素之一,也一直是困扰亿万国人的一大难题。近年来,“民生问题”成为坊间热议的话题,而温总理提出发展经济、改善民生是政府的天职
威廉·福克纳是20世纪文坛史上炙手可热的美国作家,他著有20部长篇小说和129部短篇小说,本文研究的是他的其中一部短篇小说--《干旱的九月》。近年来,对此篇短篇小说的研究呈
中国是农业大国,农业发展情况对国民经济有着举足轻重的影响。近年来,频繁发生的各种自然灾害严重影响了农业的发展、农村经济的增长和农民收入的提高。作为农业支持保护三大
人口老龄化是当今世界各国普遍面临的问题之一。人力资源是最重要的资源,人口年龄结构的变化尤其是老龄化将会给社会带来至重要的影响,我国是人口大国,而且随着计划生育政策的实