中文搜索引擎的设计与相关技术

来源 :南开大学 | 被引量 : 0次 | 上传用户：caory

【摘要】

：

自从WWW 1991年诞生以来，已经发展成为拥有近亿用户和约400万站点，8亿页面的巨大分布式信息空间，而且其信息容量仍在以指数形式飞速增长。面对如此众多的Web服务器与其上面丰富

【作者】

：

滕育平

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2005年期

【关键词】

：

搜索引擎信息检索中文分词文本分类自动文摘链接分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自从WWW 1991年诞生以来，已经发展成为拥有近亿用户和约400万站点，8亿页面的巨大分布式信息空间，而且其信息容量仍在以指数形式飞速增长。面对如此众多的Web服务器与其上面丰富的Web信息资源，如何有效快捷地进行Web信息获取变的越来越重要。搜索引擎就是快速有效的从Web获取信息的工具。文章系统的对搜索引擎的相关技术进行了研究。论文所做的工作主要有以下几个方面： 1)我们概观了当前Web搜索引擎的设计。在对Web搜索引擎的总体构架进行介绍后，我们依次对各个模块进行了分析和探讨，给出了各个模块的最一般设计和实现技术，并讨论了建立高质量搜索引擎时所面临的挑战，以及一些有用的技术。 2)结合各种搜索引擎各自的长处,我们提出了一个基于文本自动分类技术和自动文摘技术的中文搜索引擎模型，给出了该模型的概要设计。 3)对开发中文搜索引擎中所用到的的中文分词技术进行了讨论，在总结了当前的各种分词技术之后，我们提出了一种改进的最大匹配分词方法，并对该方法进行了测试。 4)本文分析了文本自动分类中的关键技术，在此基础上，针对文本分类器模块的设计，给出了一种基于粗糙集和信息熵的文本自动分类方法。 5)针对自动文摘器的设计，文章最后简要分析和讨论了当前的各种自动文摘方法。

其他文献

多圆柱上的全纯Jackson定理

　　本文主要讨论了函数空间中多项式逼近问题，在CN中的多圆柱UN上几类全纯函数空间中－－诸如Bergman型空间，Hafrdy空间，多圆柱代数以及Lipschitz空间－－建立了Jackson型不等式。即：E-

学位

函数空间连续模多项式逼近

随机部件个数的k/N（F）表决系统的随机比较

本文研究部件个数为随机的串联系统、并联系统以及表决系统的可靠性。主要结果分为如下两个部分：一、研究了随机部件个数的串联系统(或随机最小)和并联系统(或随机最

学位

随机部件个数随机最大随机最小可靠性数学k/N(F)表决系统部件寿命分布

等距和紧性两类问题

近百年来，等距算子一直是空间理论和算子理论中最活跃的研究对象之一。论文的第一章叙述了有关等距算子的表现和延拓问题的结论。本文于1.1节综述了等距表现和延拓问题的

学位