论文部分内容阅读
随着互联网的发展,越来越多的人开始在网络上互相交流。BBS作为一种受到广泛欢迎的互联网应用,极大的方便了人们的网络交互。可是,随着BBS中包含信息量的不断增长,人们也越来越难以在其中找到并参与自己关心的话题。话题检测与跟踪技术是一种基于事件的信息组织技术,可以从连续的信息流中检测新产生的话题,以及对已有话题的相关后续内容进行跟踪。
本文针对BBS环境,使用话题检测与跟踪技术对其话题信息进行挖掘,将BBS中的帖子按照所对应的话题进行归类,有效地管理和组织了BBS的信息。用户可以借助话题检测技术,更加容易地寻找到自己关心的话题,并获知话题所衍生出的新内容。
首先,本文对话题检测领域目前的研究成果进行了总结,并对BBS环境下在线话题检测所面临的独特问题进行了分析。
然后,本文提出了一种针对BBS环境的在线话题检测算法,主要包含如下两方面内容:(1)BBS文本具有话题发散、易偏移的特点,本文向传统在线话题检测算法框架中添加了代表post选取步骤。在该步骤中,本文使用Markov模型对thread进行结构分析,然后对。thread中的各个post进行重要度排序,从而对重要度较低的噪声post进行过滤;(2)聚类算法被广泛应用于在线话题检测中,本文在经典的单路径聚类基础上,通过引入基于AgingTheory的聚类候选集生成策略,对算法的运行效率进行了改进。
最后,本文对算法的实验平台进行了设计,编程实现了包括Web抓取、文本抽取、话题聚类算法等程序,并围绕算法进行了一系列相关实验。
总之,本文对BBS环境下的在线话题检测技术研究做出了一定贡献,并对其他互联网交互式应用的话题检测研究具有借鉴意义。