专业搜索引擎的数据存储研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:vacer2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组织好搜索引擎系统中动态变化的海量数据是系统提供优质服务的基础,所以研究系统的数据存储在搜索引擎的研究中占有重要地位。专业搜索引擎中的数据有自己的特点和特殊的组织需要,因而研究专业搜索引擎系统的数据存储问题对于专业搜索引擎的开发具有特殊的意义。本文从以下四个方面对专业搜索引擎系统的数据存储问题进行探讨:系统所需要的数据实体及实体间的关系,适合系统的数据压缩算法,系统的索引编码结构设计和索引分布策略,系统数据的管理维护。对于系统数据的压缩设计和数据的索引设计是其中的关键问题,也是本文的着力所在。在专业搜索引擎的数据压缩中通过对网页数据特点和专业分类数据的特征的分析,提出了将基于词典和基于统计的算法相结合、静态统计和动态统计相综合、压缩基本单位以单字和高频率词相混合的的数据压缩算法,该压缩算法在测试中取得了不错的效果。在设计专业搜索引擎的倒排索引结构时,首先提出了基于数据库的设计实现并且指出其不足,进而提出了基于文件系统的倒排索引结构。使用该索引结构得到的索引数据的规模得到控制,对索引数据的查找速度较快,而且该结构还综合考虑了专业信息编码、文档数据的增删变化等因素。对于索引数据的分布则分析了索引数据按类别进行文档分布的优势和可行性。
其他文献
近代以来,学校体育在不同的特殊历史背景下,不断檀变,曲折地发展着。虽然学校体育取得了不同程度的成绩,但是其发展中也出现了一些“异化”的现象。本文以辩证唯物主义、历史