专业搜索引擎的数据存储研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:vacer2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组织好搜索引擎系统中动态变化的海量数据是系统提供优质服务的基础,所以研究系统的数据存储在搜索引擎的研究中占有重要地位。专业搜索引擎中的数据有自己的特点和特殊的组织需要,因而研究专业搜索引擎系统的数据存储问题对于专业搜索引擎的开发具有特殊的意义。本文从以下四个方面对专业搜索引擎系统的数据存储问题进行探讨:系统所需要的数据实体及实体间的关系,适合系统的数据压缩算法,系统的索引编码结构设计和索引分布策略,系统数据的管理维护。对于系统数据的压缩设计和数据的索引设计是其中的关键问题,也是本文的着力所在。在专业搜索引擎的数据压缩中通过对网页数据特点和专业分类数据的特征的分析,提出了将基于词典和基于统计的算法相结合、静态统计和动态统计相综合、压缩基本单位以单字和高频率词相混合的的数据压缩算法,该压缩算法在测试中取得了不错的效果。在设计专业搜索引擎的倒排索引结构时,首先提出了基于数据库的设计实现并且指出其不足,进而提出了基于文件系统的倒排索引结构。使用该索引结构得到的索引数据的规模得到控制,对索引数据的查找速度较快,而且该结构还综合考虑了专业信息编码、文档数据的增删变化等因素。对于索引数据的分布则分析了索引数据按类别进行文档分布的优势和可行性。
其他文献
期刊
“五一”期间,喜闻王家乐同志被评为黄石市劳动模范。“七一”前夕,又闻王家乐同志光荣加入党组织。我乘车沿着蜿蜒的山间公路,途经举世闻名的铜绿山古矿遗址,来到了现代化
步入淮北矿业集团朔里矿综采区的办公室和会议室,桌上摆的、墙上挂的各种锦旗、奖牌就会冲入你的眼帘。走到井下工作面,各类材料堆放整齐,电缆吊挂成线,文明岗位13项制度醒
传统的小学语文教学都是以教师为中心,学生被动地接受知识,学生个性受限制不说,还会降低对语文学习的热情.随着新课改的发展,快乐教育理念慢慢渗透到小学语文课堂教学中.主要
甘肃洛坝有色金属集团公司,是一个创建仅有10年历史的年轻企业,通过一系列的改革、改制,发展为拥有年采矿20万吨、选矿20万吨、生产粗铅5000吨、电解铅1万吨、铅盐化工产品5
High-density genetic markers are required for genotyping and linkage mapping in identifying genes from crops with complex genomes, such as barley. As the most c
7月12日,安徽省皖北煤电集团公司选拔赴高校深造人员考试在公司下属的刘桥中学进行,参加考试人员达到290人。 由于历史原因,煤矿企业专业技术队伍出现结构性“贫血”,中高级
近代以来,学校体育在不同的特殊历史背景下,不断檀变,曲折地发展着。虽然学校体育取得了不同程度的成绩,但是其发展中也出现了一些“异化”的现象。本文以辩证唯物主义、历史
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥