基地关键词和时间点的网络话题演化分析

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jinn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,网络媒体已经成为人们获取各种信息的主要场所,每天承载着大量的新闻报道,人们日常关心的各种话题都能够在各种网站上找到。一般情况下,热门话题的报道概率大于普通话题,话题如果分不同阶段进行连续报道,则每个阶段的热衷度也是有很大差别的,通过这些差异,可以分析出当时社会生活中,人们关注的热点事件,能够在一定程度上了解人们的精神和社会生活的状态。   话题的演化分析是国内TDT的一个重要分支,是网络安全技术的一个重要研究方向,通过分析话题的演化过程,了解话题包含的主要子话题,和各个子话题之间的关系,有利于建立不同类型话题的演化模型。   本文针对两种不同的数据源分别提出不同的子话题切分方法及相应的演化分析方法。一种是搜索引擎的查询结果集,这种数据源的特点是有一定的结构,包括标题和摘要,但是对于某种话题的描述不够完整,一般是关键词集合。所以本文提出基于关键词的话题演化分析方法,通过提取话题中能够独立代表一定意义的关键词进行子话题切分,用关键词向量表示子话题内容,然后分析不同快照各个子话题的中关键词的关注度和内容的变化情况及相互关系;一种是各大网站,BBS等发布的完整的新闻报道,这种报道的特点是时间元素突出,每个时间点都对应一个事件,并且事件描述内容完整,所以可以通过时间点来切分子话题,用事件模型表示子话题内容,通过分析不同时间点子话题关注度和内容变化,了解话题的演化规律。实验表明,每种方法都能够很好地提取话题的主要子话题,并且能够通过数量准确表示话题中子话题之间的关系及变化情况。由于数据集描述方式的不同,基于时间点的子话题提取正确率要高于基于关键词的子话题提取方法,同时对于子话题的描述更加完整,可读性更强。
其他文献
SOA是一种日益成熟的软件体系结构,随着Web Service逐渐被广泛的采纳和实现,系统异构、孤岛应用得以彻底改观。SOA也因其在IT项目中的重要角色而获得广泛认可。目前,BEA、IBM等
中国电信增值业务是中国电信产业改革、发展和创新的产物,经历了从无到有、由小到大的历程。随着电信增值业务市场的竞争愈加激烈,用户对增值业务的服务和质量提出了越来越高
三维模型作为一种新媒体,其应用越来越广泛。随着三维建模工具和扫描装置的改进,以及计算机软硬件技术的发展,每天都有大量模型产生并被传播,因此,迫切需要对三维模型进行有
随着数字通信,计算机以及网络技术的发展,移动通信凭借其自身方便便捷的特点,呈现出如火如荼的发展势态。移动通信的目的是为了实现任何时间、任何地点和任何通信对象之间的
通信需要各种协议的参与,如何描述这些协议,如何确保这些协议的一致性,正确性和完备性成为一个难题。人们提出了很多理论来刻画这些协议,如Petri网,形式化方法等。进程代数属
学位
随着Internet的普及,软件开发逐渐趋向国际化、大型化和复杂化,基于大型数据库的银行业务系统更是如此,其功能点多,应用复杂,性能要求高,所以如何保证产品的高质量成了人们关
近年来,视觉监控系统在很多行业都得到了广泛的应用,生活中有小区和超市等的安全监控,银行系统中有柜台监控,交通方面有违章监控等等。视觉监控系统主要是使用计算机来协助人们分
学位
批注作为学习、鉴赏、批评的重要形式一直广泛存在于文学、教育、政务管理等领域。随着互联网和网络技术的迅速发展,文档的电子化和网络化趋势明显,因此迫切需要让传统的批注