论文部分内容阅读
当今国际互联网快速普及,通过网络搜索信息资源,以接近指数级的速度递增。要从如此多的网页信息中找到需要的信息,可想而知是多么的困难,而信息检索技术就是为了帮助使用者快速地找到所需要的信息。它以一定的策略在互联网中搜集、发现信息,对信息进行相应的理解、提取、组织和处理,为使用者提供检索的服务,从而起到信息导航作用。要做好信息检索系统,首先是要建立信息检索模型,用户检索的要求和用户需求的文档与检索模型的准确性紧密相连,信息检索模型也极大影响着信息检索系统的性能和效率。它的发展能够带动相关语言学处理技术发展。中文与西方文字最大的不同,就是它是以表意为基础的象形文字。针对信息检索涉及的内容,本文对信息检索中的若干关键技术进行了研究,主要研究内容和贡献如下:本文在对信息IR系统的体系结构研究的基础上,给出了一个基于布尔模型和扩展布尔模型的中文文本检索的逻辑模型。中文文本的特征项抽取和表示是中文文本检索基础。获取中文文本要经过几个部分:分词、虚词处理,以及特征项抽取和特征项权重计算等,本文对这几个过程进行了详细的研究并提出了基于扩展布尔模型加权的特征项权重计算方法。系统接收用户输入的中文信息,进行分词、计算相关度的处理,并反馈给用户检索的结果。