论文部分内容阅读
随着网络技术的飞速发展,网络媒体已经成为人们获取各种信息的主要场所,每天承载着大量的新闻报道,人们日常关心的各种话题都能够在各种网站上找到。一般情况下,热门话题的报道概率大于普通话题,话题如果分不同阶段进行连续报道,则每个阶段的热衷度也是有很大差别的,通过这些差异,可以分析出当时社会生活中,人们关注的热点事件,能够在一定程度上了解人们的精神和社会生活的状态。
话题的演化分析是国内TDT的一个重要分支,是网络安全技术的一个重要研究方向,通过分析话题的演化过程,了解话题包含的主要子话题,和各个子话题之间的关系,有利于建立不同类型话题的演化模型。
本文针对两种不同的数据源分别提出不同的子话题切分方法及相应的演化分析方法。一种是搜索引擎的查询结果集,这种数据源的特点是有一定的结构,包括标题和摘要,但是对于某种话题的描述不够完整,一般是关键词集合。所以本文提出基于关键词的话题演化分析方法,通过提取话题中能够独立代表一定意义的关键词进行子话题切分,用关键词向量表示子话题内容,然后分析不同快照各个子话题的中关键词的关注度和内容的变化情况及相互关系;一种是各大网站,BBS等发布的完整的新闻报道,这种报道的特点是时间元素突出,每个时间点都对应一个事件,并且事件描述内容完整,所以可以通过时间点来切分子话题,用事件模型表示子话题内容,通过分析不同时间点子话题关注度和内容变化,了解话题的演化规律。实验表明,每种方法都能够很好地提取话题的主要子话题,并且能够通过数量准确表示话题中子话题之间的关系及变化情况。由于数据集描述方式的不同,基于时间点的子话题提取正确率要高于基于关键词的子话题提取方法,同时对于子话题的描述更加完整,可读性更强。