论文部分内容阅读
搜索引擎是获取信息的有效工具,设计与实现搜索引擎是一项庞大的工程,要运用较多专业技术知识。本文力图通过实例分析,介绍搜索引擎的设计、实现、搜索结果聚类及其它与搜索引擎紧密相关的知识。文中指出了搜索引擎在提取摘要信息上存在的不足:仅选取关键词临近区域的语词并不具语义特征,为此提出了以文本的语义特征词来替换摘要信息。文中同时对语义特征词的提取进行了理论分析,并实现了部分功能。本文利用后缀数组来提取文档的语义特征词,因此对后缀数组的结构作了详细的阐述,提出以完全子串来表示文档的语义特征。文中实现了后缀数组的构造,左、右完全子串及完全子串的提取。本文还对搜索引擎的聚类过程、以及常用的聚类算法进行了比较,并对基于奇异值分解的文本聚类算法---Lingo作了详细分析。修改了Nutch的体系结构以实现搜索结果的聚类。最后以我校内网作为爬行目标,给出了实验结果及其评价。