论文部分内容阅读
随着科学技术的进步,互联网已经成为人们获取信息的主要手段。一方面,对于某一话题事件,相关的信息出现在互联网的各个分散的角落,通过人工的手段无法获知话题事件完整信息;另一方面,网民通过互联网参与国家事务管理、发表评论意见的热情空前高涨,一个很小的事件就可能引发一个舆情事件,因此迫切要求监管者及时掌握舆情话题的发展态势,有效梳理民意,及时做出正确的处理。本系统利用自然语言处理技术,自动发现并跟踪相关的话题事件,了解网民的关注热度及倾向,最后生成一个关于话题的舆情统计报告。具体的研究内容包括以下几个方面:第一:实现了基于论坛的信息抽取工作。本系统是一个小型的试验系统,没有追求庞大的信息覆盖,而是选择有代表性的“新华网论坛”作为舆情信息源,经过信息抽取后的论坛信息以xml格式存储。第二:介绍了基于两层聚类和周期分类相结合的TDT实现方法。传统的增量式聚类由于话题模型覆盖不够全面、表示不够准确,从而导致在增量处理过程中误差被累计放大,本文引入了周期分类,定期对增量聚类所产生话题的边缘文本重新分类,提高话题的纯度,最终达到降低误差、提升性能的目的。第三:介绍了基于HowNet和依存句法分析的情感倾向处理技术。本文通过人工方式建立一个情感词典,并通过基于Hownet语义相似度的方法计算未登录情感词的情感倾向和强度,然后根据依存句法分析确定情感词的真实上下文情感倾向,进而确定句子、文本以及话题的情感倾向。第四:设计并实现了一个完整的基于论坛的网络舆情系统。整个系统包括信息抽取子系统、TDT子系统、话题倾向性子系统以及舆情展示子系统。