搜索引擎中文索引器索引方法研究与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:jieswh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎由三部分组成:负责从网上收集信息的蜘蛛Spider、对信息进行索引器Indexer、处理用户查询并提供用户界面搜索器Searcher.Indexer是搜索引擎中最为关键的核心部分,是该文研究的对象.该文主要完成的工作:1.研究基于分词词典的中文索引方法.这一部分内容分为两方面:一是研究中文分词词典的结构.中文分词词典是基于分词词典的索引器的一个重要组成部分,该文讨论了整词二分和基于TRIE树的分词机制.改进了整词二分分词机制,提出了一种新的词典结构——结构化中文分词词典.二是给出基于分词词典的中文索引器索引流程,建立倒排文档的结构并提出以B树为检索数据结构.2.研究无词典的中文索引器的索引方法.分析了Microsoft的专利产品——逐步索引(stepindex),提出一种新的逐步索引的实现方法——基于数据库的动态逐步索引实现方法.优化设计数据库结构,给出数据组织和检索的流程.3.研究中文分词词典与基于分词词典的中文索引器的实现,给出了以C++类描述的实现方案.并对Indexer的主要算法及数据库设计进行了分析,提出测试数据模拟生成的方法及计算机模拟测试的方法.
其他文献
该文在简单介绍了两种物质平衡法、扩散方法和蒙特卡洛反演方法之后,根据物质平衡法,分别与扩散模型和蒙特卡洛反演方法相结合,用数值模型来模拟青藏高原的古地形变化过程.通
该文基于真值表原理,提出了工本真值矩阵了、的生成和输出、计算和输出给定命题公式的真值、判断论证的有效性等算法,并开发了一个解决命题逻辑判定问题的计算机判定系统,从
本文研究了对数效用函数的无差别定价问题,在离散时间和连续时间两种框架下,主要考虑了两个问题:  首先,在离散市场讨论了对数效用函数无差别定价的定义,然后分别讨论了完备市场
该文研究Lazer-Mckenna吊桥方程的静态问题,周期边值问题和初值问题以及一些类似的相关问题.分四章讨论.在第一章,首先讨论吊桥系统的静态问题,利用变化方法,得到了该系统静
煤泥水中的精煤主要是通过粉煤洗选系统来回收的。传统的煤泥水处理方法是将原生和次生煤泥水直接排放到耙式浓缩池自然沉淀与浓缩,经真空过滤机或压滤机脱水回收。 Clean c
该文主要讨论电力负荷预测的六个实用的模型,并且结合数据对模型中的一些参数做较为具体的估计,主要做了工作是根据数据的特点建立数学模型,用模型对历史数据进行拟合,由拟合
该文研究一类更为广泛的具反馈控制,变时滞及无穷时滞的单种群增长模型,利用重合度理论和Liapunov泛函方法讨论了其周期正解的存在性和全局吸收性,得到了保证周期正解存在和
本文主要的结果就是将二维首达渗流模型推广到二维非齐次首达渗流模型。模型建立为: 在二维正方形点格图L2=(Z2,E2)中,对图中的每一边e;指定一随机变量t(e),称为边e的通过时间。并
学位
该文主要研究细分方程和细分格式的若干问题.细分格式是计算机图形学的一个重要工具.它与细分方程紧密相联着.由收敛细分格式可以得到细分方程的解,由细分方程解的存在性也可
该文第一章是绪论,主要介绍了该文所研究的历史和现状,该文的创新和突破,以及该文的现实意义.介绍了该文所用到的一些预备知识,同时用几个具体的模型实例,阐述了该文所研究问