论文部分内容阅读
搜索引擎是网民在Web上的海量数据中查找信息的重要工具。目前,搜索引擎应用正朝向多样化趋势发展。信息检索相关技术的成熟,使得开发多样性搜索引擎应用成为可能。论坛(BBS)作为一种互联网工具,是网络信息的载体,也是新闻或者信息的发布媒介,可以迅速地将某一“突发事件”发布在网上,随着参与“讨论”的网民的数量增加,有些会逐渐演变成为“热点话题”。目前,大多数BBS网站的“搜索”功能都比较简单,一般仅是以分版块、基于主题关键字的搜索方式,查询结果排序方式是单一的按时间排序,无法给用户以高质量的查询服务。同时,通用搜索引擎对于BBS检索服务的表现也很一般。本课题通过打造一种搭建于BBS上的轻量级搜索引擎,拟将舆情分析领域的热点话题发现技术,引用到搜索引擎的检索排序策略上,将文章的“热度”,作为名次排序的一项重要指标考虑进来,研究并实现一种基于热点话题发现的检索排序方法。首先,基于Lucene全文检索技术,快速搭建一个BBS检索系统,在此过程中研究并实现BBS网页信息采集与抽取、索引文件的创建、查询处理等搜索引擎关键技术,以及基于JSP/Servlet技术的搜索引擎用户界面设计然后,采用凝聚层次聚类算法,对BBS上的话题进行识别。选取帖子的主题影响力、关注度(回帖数)、回帖贡献率、活跃程度作为话题热度评定的影响因子。经过多次实验,确定每一个影响因子的权重大小。对帖子的热度进行打分,并根据热度排序的效果,来调整影响因子的权重大小。最后,本文在Lucene的排序机制的基础上,引入了文章(帖子)的热度值参与计算,实现一种新的排序方式。基本思想是:最终查询匹配文章(帖子)的得分,由文章与查询条件的相似度得分和文章热度值得乘积决定。