论文部分内容阅读
伴随着互联网的飞速发展,网络空间因其交互性、即时性和开放性的特点已经成为人们交流意见、宣泄情感的首选平台,以及突发事件相关信息和网络舆情第一时间出现和传播扩散的媒介。互联网异构、动态的海量信息环境和突发事件难以预测、传播快捷、影响广泛的显著特点,给传统网络舆情获取技术带来新的挑战。突发事件网络舆情数据采集与抽取技术能够从互联网上自动采集大量突发事件网络舆情相关网页,并从中自动抽取出舆情数据,对突发事件网络舆情信息的监测和预警具有重要意义。本文对突发事件网络舆情数据采集与抽取技术进行研究,主要包括:突发事件网络舆情数据采集技术、网络舆情载体类型识别技术和突发事件网络舆情数据抽取技术。论文主要研究成果如下:(1)为及时准确地获取监测网站的突发事件网络舆情数据,本文提出了一种基于站点地图的突发事件网络舆情数据采集方法。该方法首先构建出含有监测网站各版块突发事件热度的站点地图;接着在站点地图的指导下,对采集任务队列进行优化和适时更新;最后借用主题采集技术实现了突发事件网络舆情相关网页的采集。实验结果表明,该方法能够自动调整更新频率,及时地采集所需网页,较好地适应监测网站结构的动态变化。(2)针对现有网页识别方法识别准确率不高的问题,本文提出了基于综合特征的网络舆情载体类型自动识别算法。该算法首先引入频率差法和回归特征消去法分别对特征较多的内容特征和结构特征进行了特征选择,构建了面向网络舆情载体类型识别的特征集;接着提取了网页的超链接特征、内容特征和结构特征用于表示网络舆情载体;最后采用SVM分类器对网络舆情载体类型进行识别。实验结果表明,该算法能够准确识别网络舆情载体的类型。(3)为克服Web论坛评论抽取中存在较多噪声和数据不等长等复杂的问题,本文提出了一种论坛类网页的突发事件网络舆情数据抽取方法。该方法首先依据Web论坛评论网页的特有的结构和特征,自动识别出数据区域;接着对数据区域中的评论进行噪声滤除与评论边界判定,随后自动生成模板用于新网页的评论抽取;最后利用统计信息和少量规则,从评论中抽取出所需舆情数据。实验结果表明,该算法具有良好的通用性,较高的准确率、召回率和抽取效率。