基于事件相似性计算的话题检测技术研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:ericchenfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的飞速发展,互联网在带给人们极大生活便利的同时,也向我们提出了新的挑战。由于互联网上的信息具有海量异构、更新频繁、增长迅速等特点,导致网络用户很难通过简单的检索方法高效便捷地获取感兴趣的信息。话题检测与追踪技术的提出在一定程度上解决了人们对于信息获取的多种需求,垂直挖掘用户感兴趣话题,追踪主题脉络,有效提高了主题信息检索的准确率与实际应用价值。   本文在深入分析传统的话题检测模型基础上,提出了一种基于事件相似性计算的话题检测模型,并将其实际应用于高校BBS的话题检测中。该模型首先解析BBS的页面结构获得页面内容,再利用事件相似性计算、话题检测以及多网域联动检测技术将海量的BBS网页按话题予以归类和组织,使得用户可以在动态变化的环境下查看自己关注的内容,避免了大量冗余信息的干扰。实际应用过程中,模型首先借助资源描述框架良好的资源描述能力,对样本主题页面予以事件案例抽象,逐步建立主题事件知识库。借助知网中层次化语义结构树的设计思想,建立事件与语义树中特征词间的映射关系,为进一步主题事件的动态管理和相似性计算提供良好的数据支撑。其次,采用基于事件知识分解的匹配方法,计算目标文本与事件间的相似性。同时结合事件和目标文本间的匹配关系,设计并提出了一系列相似性计算策略。最后,基于对话题在多个网域中的蔓延性考虑,模型将各网域事件信息进行协同,将单个网域的话题检测扩展到了多个网域,大大提高了各网域对局部突发事件的检测能力。本文以北京科技大学BBS和清华大学BBS中的28000个网页作为测试数据集,利用本文提出的模型和传统的话题检测方法,分别进行了常规话题检测和多网域协同话题检测实验,通过计算精度、响应时间等实验结果的对比,证明了本文提出的模型的有效性和实际应用价值。
其他文献
作为微重力科学的研究手段,空间站被用于进行大量的空间科学实验,包括蛋白质晶体生长、燃烧、材料和流体力学实验,这些实验在一个很宽的频率范围内都需要静态的加速度环境。振动隔离系统的基本目标是隔离空间站上的各种振动,抑制实验过程中的加速度环境,以实现空间科学实验所需要的低加速度环境。由于我国微重力科学研究的发展,特别是未来空间站的建立,对振动隔离系统的需求也日益迫切。本文对微重力隔振系统进行了力学分析。
为了保证柔性软件的质量,改善软件柔性,本文以柔点为核心要素,建立了面向用户的软件柔点的测试模型。本文借鉴了黑盒测试用例的一些设计方法,包括等价类划分、边界值分析、错
在基于划分方法的聚类算法中,k-means算法因为简单易实现的特点而得到广泛的应用。然而它存在诸多的缺点特别是对于大规模数据不能进行有效的聚类分析。本文主要研究了如何在
20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量数据。数据大多以文本形式存在。如何从大规模的文本中快速获取所需要的信息呢?文本
近年来随着网络技术不断发展,互联网在政治、经济、文化、冶金等各个领域的作用越来越重要,成为社会和经济发展的强大动力。尤其是基于Web的信息发布和检索技术、以及网络分布
当今,用户界面交互设计已经成为人机交互研究领域的重要组成部分,同时也是设计阶段最容易发生变化的部分。而原型设计作为目前交互设计中的主要设计方法,使得对其的研究工作引起
随着中国保险业的迅速发展和保险总资产的快速增长,寿险资金的运用对于寿险公司的稳定发展起到关键性作用,而寿险投资风险的度量和管理是其核心问题。由于国家对于保险业投资政
本文详细的研究了基于SOA的设备管理系统设计与实现过程。面向服务的体系结构(Service-Oriented Architecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)通过
热轧是钢铁企业重要的生产工序之一。其调度技术则是热轧生产管理中的核心内容和关键。热轧调度的好坏将直接影响到热轧前后工序的物流畅通、轧线产能的提高和轧辊的工作寿命
BBS(Bulletin Board System)作为一种在拨号网络时代就已经出现的网络应用,随着Internet和技术的发展,因为其开放、自由、交互性强等特点,应用极为广泛。目前国内通常所说的网络