论文部分内容阅读
Web已成为人们获取信息的一个重要途径,随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。搜索引擎随之成为人们最普遍使用的信息检索的工具。但目前主流的搜索引擎往往是针对新闻、娱乐等方面,或是针对整个互联网,无法有效地应用于具有专门内部网络环境下的政府机构、组织、高校等组织的要求。因此,面向各组织、机构专门信息网的专网搜索引擎具有很大的需求。
本文的主要工作是设计和实现面向校园网应用的校园新闻性信息检索系统,目标是开发一个能满足高校校园网应用需求的校园网新闻信息检索系统。
校园网新闻信息不仅来自校园网内部的信息发布系统,而可以来自校外的互联网站点。本文采用非贪婪搜索算法从校外站点发现并下载校园信息相关的新闻网页并建立索引,与校园站内索引资源合并,使搜索的资源不局限于站内,适当地扩充了搜索的范围。由于适度控制搜索的范围,使得搜索内容具有较强的针对性,并通过优化搜索算法,从而使搜索性能不因搜索范围的扩大而明显下降,体现了专题搜索的能力。
由于新闻检索系统对新闻的实时性有较高的要求。论文在搜索结果排序算法的改进中,引入了时间排序因素、重要网页加分等,使搜索结果体现了实时性的价值。经过测试证明,引入这些排序因素后搜索结果的匹配度评分依然控制在合理的范围,使得搜索结果既真实反映搜索内容的要求,又体现了时间价值等因素,更能从整体的高度去“关注”和“发掘”出对用户真正有价值的信息的目的。
论文给出了校园新闻信息检索系统总体架构设计,并基于开源搜索引擎Nutch来构建校园新闻信息搜索系统,论文阐述了基于Nutch二次开发的系统实现机制。在Nutch的基础上,开发完成了系统的结果显示功能,如相关词推荐、关键词高亮显示、搜索结果分页显示等,增强了系统的实用性;加入了网页最后修改时间因素、给重要网页加分等来优化搜索排序结果,使搜索结果的排序更加符合应用的需求;增加了校外新闻教育专题搜索服务,并与站内搜索进行整合,扩充了新闻信息服务的涵盖范围。