论文部分内容阅读
计算机技术与通信网络技术高速发展,网页资源日益成为一种重要的学术资源形式,在数字图书馆的资源建设中受到重视。然而网络信息有着数据量大,更新速度快、分布灵活分散,无序化等特点。因此,如何实现对特定领域、学科的实时监测和有效分析,使图书馆用户在检索专业内容时,可以从网络信息中更快速,更准确的找到有用信息,成为数字图书馆专题资源建设工作的重点研究课题。本文在数字图书馆系统集成应用的框架下,通过对主题搜索引擎技术原理和应用的研究,对目前具有代表性的开源网络抓取软件进行了比较分析,最终选择在Nutch基础之上进行多种扩展和改进,采用正则表达式过滤、lucene全文索引、基于字典的中文分词、多线程控制、webservice、层次化自动聚类等关键技术,研究并实现了基于Nutch的专题网络资源定向采集服务系统N-WHSS (Nutch-based Website Harvest and Service system in Special field).N-WHSS系统在引入搜索引擎基本架构模型,即抓取器、索引器、查询器的基础上,根据数字图书馆系统集成应用的实用化要求,设计开发了GUI信息定制模块、信息过滤模块、基于字典的中文分词模块、专题知识库信息加工标引模块和基于webservice的检索服务模块。使得系统功能和性能方面以及实用性、易用性方面都有很大的提升。此外,在系统独立功能实现的基础上,本文特别研究了系统在数字图书馆中的集成应用,介绍了与中心仓储系统、资源加工系统和统一检索系统的集成,提高了系统的松耦合和扩展性,不仅具有实用价值也符合SOA技术发展的要求。文中首先对搜索引擎的概念,发展历史和工作原理进行了简要分析,对N-WHSS系统所依托的开源搜索引擎框架Nutch以及根据应用需求对其进行扩展改进过程中所使用的关键技术进行了深入研究,详细论述了N-WHSS的体系架构和设计方案。该文最后在系统实现的基础上,对基于Nutch的专题网络资源定向采集服务系统在数字图书馆中的实用化集成应用做了总结,并对下一步研究做了展望和建议。