论文部分内容阅读
现代网络的飞速发展,网上的信息量在以惊人的速度飞快的增长,人们对搜索引擎的要求不断地提高,为了找到一种更满足人们需求的搜索引擎,垂直搜索引擎就在发展中产生了。垂直搜索引擎服务于特定行业、特定人群,具体问题具体分析,解决了通用搜索引擎的一些不足之处,比以往的通用搜索引擎更占有优势。随着信息产业化的发展,面向专业方向的搜索需求也越来越多,现在,实现某个专门方向的垂直搜索引擎系统成为搜索引擎的的热点问题之一本文在深入研究垂直搜索引擎的关键技术的基础上,分析并设计专业网络蜘蛛、索引、检索的流程,采用了专业网络蜘蛛的搜索策略,实现了信息的采集、索引和查询,构建了垂直搜索引擎系统。本文主要研究内容如下:(1)专业网络蜘蛛:在分析专业网络蜘蛛的相关技术上,设计了专业网络蜘蛛的搜索策略和流程,研究了基于网页内容和链接结构的两种搜索策略,并采用了将两种搜索策略结合的搜索策略,对系统的核心部分网络蜘蛛进行设计与实现。(2)索引和中文分词:本文对索引和中文分词的算法进行了研究与设计,采用最大化分词策略的中文分词算法,并对分词后的信息建立索引,采用倒排索引形式将索引数据组织存放到数据库,实现信息数据的索引。(3)信息检索技术:本文对检索的框架结构进行了研究,采用相似度匹配的算法对查询出的网页信息进行排序,用户通过检索接口查询关键字,将排序后的结果通过接口输出,并显示给用户。(4)系统设计与实现:通过对搜索引擎关键技术的探讨与研究,对垂直搜索引擎各个模块进行了分析与设计,设计了专门的信息采集模块,索引模块,信息查询模块,实现了一个垂直搜索引擎系统。本文所设计的系统为具有专业化、个性化的特点,并满足用户信息检索要求。最后,对垂直搜索引擎的相关技术的实现进行总结,对技术不够成熟的地方和有待进一步优化的地方进行了展望,提出了以后的大致的研究方向和目标,一步一步的完善系统,使得垂直搜索的服务水平更加专业化。