基于LDA的新事件自动检测系统的设计与实现

来源 :山西大学 | 被引量 : 0次 | 上传用户:lshel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,新闻门户网站、社交平台等电子媒体已成了人们获取新鲜资讯的主要途径。网络媒体信息通常按照话题来分类,新信息的发现通常与新话题的发现有关。而新话题的发现往往是通过该话题的第一篇报道开始的,这一过程被称为首次报道检测,也叫新事件检测。新事件检测是文本挖掘、自然语言处理的一个重要研究方向,在新闻媒体行业、互联网搜索引擎、推荐系统中具有重要应用价值,但同时面临巨大挑战。新事件检测任务是从待检测文档流中找出报道了新事件的文档。本系统采用新颖度检测的方式,为两级模式的首次报检测算法,第一层是文本分类阶段,负责将待检测的当前文本分类到所属主题下。在这一层采用LDA主题检测的方式,得到文档主题概率分布,并通过K-Means聚类的方式将文本分类;第二层是新颖度计算阶段,用普通特征词和命名实体词的特征值作为文本内容的向量表示,并采用向量相似度计算的方式来计算待检测文本与该主题下的所有历史文档的相似度,若低于阈值则判定为新事件,并加以标记标签,并将文档检测结果加入历史文档记录。本文主要目标是设计与实现一个新事件检测系统。我们系统实现了新闻信息管理、新事件检测、参数设置、监控进程四大模块,新事件检测模块可以实现对文档的新事件检测,此模块具有自动检测的特点,用户通过设置可以去定时定量的对文档进行检测,检测结束返回提示消息并将检测结果保存。文档信息管理模块实现对文档信息的增删改查,用户可以查询文档详细信息,包括文档名、文档内容等。参数设置模块可以让管理员修改和保存系统中涉及到的参数,用户可以查看系统参数。监控进程模块可以自动更新数据库与系统保存的文本信息。
其他文献
一张盲文高考试卷的诞生说起高考报道,1984年记者第一次走进宁夏高考现场采访,时隔30年,我又一次采访高考现场,与以往不同的是,这次报道的是一个特殊群体——残疾人。今年,全
文章解读了2014年“两会”报告中的关键问题,力求得出政策的变化与走向.指出,今年“两会”报告的关键包括雾霾问题、简政放权、教育问题、保障和改善民生问题,而使用频率较高
近年来,环境民事公益诉讼在我国获得了长足的发展,但仍然面临着法律规则供给不足的困境,相关程序规则不能满足审判实践的需要,在起诉阶段、审前阶段、审判阶段各个方面都存在
本文在分析克拉玛依人口构成与分布情况、公共文化服务体制建设有利条件与存在问题的基础上,提出了完善克拉玛依流动人口公共文化服务体系建设模式的对策:明确流动人口公共文
《中西医结合心脏康复》丛书是由国家心血管病中心中国医学科学院阜外医院心脏康复中心发起编写,汇集全国多家三级甲等医院各相关科室的知名学术专家针对心脏康复涉及的九个