论文部分内容阅读
自从WWW 1991年诞生以来,已经发展成为拥有近亿用户和约400万站点,8亿页面的巨大分布式信息空间,而且其信息容量仍在以指数形式飞速增长。面对如此众多的Web服务器与其上面丰富的Web信息资源,如何有效快捷地进行Web信息获取变的越来越重要。搜索引擎就是快速有效的从Web获取信息的工具。 文章系统的对搜索引擎的相关技术进行了研究。论文所做的工作主要有以下几个方面:
1)我们概观了当前Web搜索引擎的设计。在对Web搜索引擎的总体构架进行介绍后,我们依次对各个模块进行了分析和探讨,给出了各个模块的最一般设计和实现技术,并讨论了建立高质量搜索引擎时所面临的挑战,以及一些有用的技术。
2)结合各种搜索引擎各自的长处,我们提出了一个基于文本自动分类技术和自动文摘技术的中文搜索引擎模型,给出了该模型的概要设计。
3)对开发中文搜索引擎中所用到的的中文分词技术进行了讨论,在总结了当前的各种分词技术之后,我们提出了一种改进的最大匹配分词方法,并对该方法进行了测试。
4)本文分析了文本自动分类中的关键技术,在此基础上,针对文本分类器模块的设计,给出了一种基于粗糙集和信息熵的文本自动分类方法。
5)针对自动文摘器的设计,文章最后简要分析和讨论了当前的各种自动文摘方法。