校园网新闻信息检索系统的设计和实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:cdwkevin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web已成为人们获取信息的一个重要途径,随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。搜索引擎随之成为人们最普遍使用的信息检索的工具。但目前主流的搜索引擎往往是针对新闻、娱乐等方面,或是针对整个互联网,无法有效地应用于具有专门内部网络环境下的政府机构、组织、高校等组织的要求。因此,面向各组织、机构专门信息网的专网搜索引擎具有很大的需求。   本文的主要工作是设计和实现面向校园网应用的校园新闻性信息检索系统,目标是开发一个能满足高校校园网应用需求的校园网新闻信息检索系统。   校园网新闻信息不仅来自校园网内部的信息发布系统,而可以来自校外的互联网站点。本文采用非贪婪搜索算法从校外站点发现并下载校园信息相关的新闻网页并建立索引,与校园站内索引资源合并,使搜索的资源不局限于站内,适当地扩充了搜索的范围。由于适度控制搜索的范围,使得搜索内容具有较强的针对性,并通过优化搜索算法,从而使搜索性能不因搜索范围的扩大而明显下降,体现了专题搜索的能力。   由于新闻检索系统对新闻的实时性有较高的要求。论文在搜索结果排序算法的改进中,引入了时间排序因素、重要网页加分等,使搜索结果体现了实时性的价值。经过测试证明,引入这些排序因素后搜索结果的匹配度评分依然控制在合理的范围,使得搜索结果既真实反映搜索内容的要求,又体现了时间价值等因素,更能从整体的高度去“关注”和“发掘”出对用户真正有价值的信息的目的。   论文给出了校园新闻信息检索系统总体架构设计,并基于开源搜索引擎Nutch来构建校园新闻信息搜索系统,论文阐述了基于Nutch二次开发的系统实现机制。在Nutch的基础上,开发完成了系统的结果显示功能,如相关词推荐、关键词高亮显示、搜索结果分页显示等,增强了系统的实用性;加入了网页最后修改时间因素、给重要网页加分等来优化搜索排序结果,使搜索结果的排序更加符合应用的需求;增加了校外新闻教育专题搜索服务,并与站内搜索进行整合,扩充了新闻信息服务的涵盖范围。
其他文献
优化技术在许多工程领域有广泛的应用,如系统控制、人工智能、模式识别、生产调试以及计算机工程等。为了克服传统优化方法的不足,人们提出了智能优化方法如遗传算法、模拟退火
近些年来,随着计算机网络的快速发展,网络应用经历了从传统的Web、Ftp、Mail等业务为主导到以P2P为主导的变化,同时伴随着网络流量成倍的增大。这些变化加大了网络管理的难度
由于各种原因,大多数成像过程中都存在或轻或重的散焦模糊退化,散焦模糊普遍存在于卫星遥感图像、航天、道路交通等重大科研和研究领域中。因此,研究散焦模糊图像的复原,消除模糊
随着网络的普及,各种宽带网络应用层出不穷,组播技术得到迅速的发展。相对于单播和广播,组播具有节省带宽、减少拥塞,减轻网络负载等特点。然而,目前的组播协议缺乏安全机制来满足
随着信息技术的发展,银行的业务得到了迅速发展。越来越多的业务电子化,自动化,自助化;银行卡发卡量、交易量大幅激增,ATM设备、中间业务机等电子设备的数量也随之大幅增加。业务