论文部分内容阅读
伴随着信息技术的飞速发展,互联网在带给人们极大生活便利的同时,也向我们提出了新的挑战。由于互联网上的信息具有海量异构、更新频繁、增长迅速等特点,导致网络用户很难通过简单的检索方法高效便捷地获取感兴趣的信息。话题检测与追踪技术的提出在一定程度上解决了人们对于信息获取的多种需求,垂直挖掘用户感兴趣话题,追踪主题脉络,有效提高了主题信息检索的准确率与实际应用价值。
本文在深入分析传统的话题检测模型基础上,提出了一种基于事件相似性计算的话题检测模型,并将其实际应用于高校BBS的话题检测中。该模型首先解析BBS的页面结构获得页面内容,再利用事件相似性计算、话题检测以及多网域联动检测技术将海量的BBS网页按话题予以归类和组织,使得用户可以在动态变化的环境下查看自己关注的内容,避免了大量冗余信息的干扰。实际应用过程中,模型首先借助资源描述框架良好的资源描述能力,对样本主题页面予以事件案例抽象,逐步建立主题事件知识库。借助知网中层次化语义结构树的设计思想,建立事件与语义树中特征词间的映射关系,为进一步主题事件的动态管理和相似性计算提供良好的数据支撑。其次,采用基于事件知识分解的匹配方法,计算目标文本与事件间的相似性。同时结合事件和目标文本间的匹配关系,设计并提出了一系列相似性计算策略。最后,基于对话题在多个网域中的蔓延性考虑,模型将各网域事件信息进行协同,将单个网域的话题检测扩展到了多个网域,大大提高了各网域对局部突发事件的检测能力。本文以北京科技大学BBS和清华大学BBS中的28000个网页作为测试数据集,利用本文提出的模型和传统的话题检测方法,分别进行了常规话题检测和多网域协同话题检测实验,通过计算精度、响应时间等实验结果的对比,证明了本文提出的模型的有效性和实际应用价值。