论文部分内容阅读
随着互联网的飞速发展,新闻门户网站、社交平台等电子媒体已成了人们获取新鲜资讯的主要途径。网络媒体信息通常按照话题来分类,新信息的发现通常与新话题的发现有关。而新话题的发现往往是通过该话题的第一篇报道开始的,这一过程被称为首次报道检测,也叫新事件检测。新事件检测是文本挖掘、自然语言处理的一个重要研究方向,在新闻媒体行业、互联网搜索引擎、推荐系统中具有重要应用价值,但同时面临巨大挑战。新事件检测任务是从待检测文档流中找出报道了新事件的文档。本系统采用新颖度检测的方式,为两级模式的首次报检测算法,第一层是文本分类阶段,负责将待检测的当前文本分类到所属主题下。在这一层采用LDA主题检测的方式,得到文档主题概率分布,并通过K-Means聚类的方式将文本分类;第二层是新颖度计算阶段,用普通特征词和命名实体词的特征值作为文本内容的向量表示,并采用向量相似度计算的方式来计算待检测文本与该主题下的所有历史文档的相似度,若低于阈值则判定为新事件,并加以标记标签,并将文档检测结果加入历史文档记录。本文主要目标是设计与实现一个新事件检测系统。我们系统实现了新闻信息管理、新事件检测、参数设置、监控进程四大模块,新事件检测模块可以实现对文档的新事件检测,此模块具有自动检测的特点,用户通过设置可以去定时定量的对文档进行检测,检测结束返回提示消息并将检测结果保存。文档信息管理模块实现对文档信息的增删改查,用户可以查询文档详细信息,包括文档名、文档内容等。参数设置模块可以让管理员修改和保存系统中涉及到的参数,用户可以查看系统参数。监控进程模块可以自动更新数据库与系统保存的文本信息。