论文部分内容阅读
面对互联网信息量爆炸式的增长,让人们越来越对搜索引擎产生需求和依赖,对搜索引擎技术的研究具有非常重要的理论意义和实用价值。本文对搜索引擎系统结构及其工作原理进行了系统论述,在理论研究的基础上,还利用Java技术对新闻搜索引擎的核心部分进行了实现,并对网页搜索算法和搜索结果排序算法提出改进。本文在分析现有网页搜集技术的基础上,提出一种基于非贪婪策略的启发式搜索算法,给出详细的算法过程和性能分析,并采用基于索引页的增量式网页搜集策略以提高索引数据库维护效率,确保网页索引数据的及时更新;针对目前普遍采用的基于链接分析的网页排序算法的缺陷,提出综合考虑网站性能、网页内容、页面更新时间和用户点击率多种因素的网页排序改进算法,以过滤垃圾网站提高搜索性能;最后就基于JAVA技术的新闻搜索引擎的实现机制进行了介绍。