论文部分内容阅读
在过去的十几年里,互联网一直呈爆炸式飞速发展,如今它已经成为人们创造和获取信息的重要载体,是人们学习、生活以及休闲娱乐的重要组成部分。互联网上不断有新的网站、网页出现,规模不断庞大,人们从茫茫网海中寻找自己需要的特定信息,也变得越来越困难,搜索引擎就是在这样的背景下出现的。
本文通过对RSS (Really Simple Syndication)技术的研究,结合新闻网站中RSS技术的发展现状和未来趋势,在传统搜索引擎架构的基础上,设计了一种基于RSS技术的新闻搜索引擎。本文设计的搜索引擎,定期从新闻网站的RSS源中解析出新产生的新闻网页链接,交给网页采集程序抓取新闻网页全文;同时从RSS中提取如新闻标题、发布时间、新闻摘要等信息。对新闻网页全文和RSS中提取的信息分别建立独立工作的倒排索引,本文分别称为全文索引和RSS索引,提供给用户检索。RSS索引具有占存储空间小、建立时间快的特点,因此有时候虽然搜索引擎还未能抓完新闻网页正文并建立全文索引,但是由于RSS索引已经建立,当用户检索词命中一些RSS信息(如新闻标题、摘要等)时,仍有一定数量的最新实时新闻被检索出来,从而产生很好的时效性。
另外本文还在计算网页的重要性、时效性,对RSS更新周期的分级评价等方面做出了一些创新性的研究工作,构建了一个完整的基于RSS新闻搜索引擎架构模型。