基于Web数据的事件侦测和话题追踪

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:ROVINZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
热点事件是人们关注的重要信息。随着互联网的发展,Web数据,比如新闻网站或者微博网站,已经成为人们获取热点事件信息的重要数据源。因此,在互联网环境下进行事件侦测和话题追踪是有效组织热点事件相关Web数据的基础,也是更好满足用户信息需求的前提。  目前,国内外对于事件侦测和话题追踪的研究已经积累了许多成果。比如基于新闻广播报告的离线和在线的事件侦测算法。然而,这些研究大部分都关注非互联网环境,没有考虑到互联网环境下Web数据类型多样、数据量大、数据具有半结构化特点等许多新的问题,因此也无法直接应用从Web数据中进行事件侦测和话题追踪。为此,本文分析了互联网环境下进行事件侦测和话题追踪的各种问题,提出相应解决方法,并通过原型系统的设计和实现来验证提出方法的效果。  本文学习的事件侦测和话题追踪算法都是基于Web数据的,与传统的方法相比,有以下三个特点。首先,由于Web数据类型多样,文本首先选取了新闻网站作为事件侦测和话题追踪的数据源,并通过集成用户微博数据,提供话题和事件更加全面的信息;其次,由于Web数据规模大、更新速度快,本文提出的方法更加注重算法效率方面的考虑,做到能够从海量的Web数据进行高效而实时的事件侦测和话题追踪;再次,本文利用新闻页面的半结构化信息,更有效的计算新闻页面之间的相似度,进而更好的支持事件侦测和话题追踪算法。  在数据抓取和算法实现的基础上,本文实现了原型系统。原型系统能够对抓取的数据进行实时的存储与索引,并且在事件侦测和话题追踪的基础上实现了话题和事件的自动摘要、相关用户微博信息的集成以及事件演化图的构建等功能。
其他文献
居住健康是近几年来建设住宅小区的核心理念,在满足住区用户心理健康和生理健康基础上,提高住户生活质量,大力建设健康住宅是国家住宅建筑业发展的趋势。随着数据挖掘技术的日趋
随着我国城市规模不断扩大,城市人口日益激增,公共交通信息化建设越来越受到重视。发达国家普遍采用各种信息技术高效管理城市公交系统的业务运营,而我国公交公司管理信息化程度
高层体系结构HLA是美国建模与仿真办公室为了满足大规模复杂仿真系统的需求,提出的一种新型的仿真框架。该框架具有开放性、扩展性、交互性、分布性和可重用性的优点。在2000
海洋船舶在生产活动中产生了大量的时空轨迹数据,海量的船载AIS系统时空轨迹数据集合中蕴含着大量的船舶交通行为特征,在进行轨迹信息挖掘时存在诸如海量数据、数据缺失、数据
随着互联网技术的发展和计算机的普及,人们越来越多的产生了大量的个人信息,包括短信息,照片,视频,email,联系人,blog,文档等。人们迫切的需要有一个方便易用的系统来管理和
本文在概括介绍Voronoi图与Delaunay三角化的基础上,引出Power图和限定Voronoi图,针对Power图和限定Voronoi图现有生成算法中存在的缺点,对Power图和限定Voronoi图生成技术进行
近年来,工业检测、模具设计、加工制造、医疗诊断、虚拟现实等产业的发展极大地拉动了逆向工程技术的应用需求。依托计算机实现的三维测量用以快速准确地获取自由曲面的立体尺
随着计算机技术的不断发展,人们对计算机的依赖越来越大。然而,在计算机迅速发展的同时,服务器的发展速度却不尽如人意。同时,网络技术在世界范围内得到迅猛发展,Internet给
融合通信是下一代网络技术发展的典型应用,随着近年来融合通信业务的飞速发展,融合通信巨大的市场潜力吸引了众多的设备商、运营商以及软件开发商,众多融合通信产品也如雨后
城市化在给人类社会发展增添新的活力和新的机遇的同时,也给城市带来了很多不确定的危险源与致灾因素。随着这些危险源与致灾因素的不断增长,必然导致城市重大突发公共事件的不