搜索引擎Nutch在数字图书馆中集成应用的研究与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户：lj55769145

【摘要】

：

计算机技术与通信网络技术高速发展,网页资源日益成为一种重要的学术资源形式,在数字图书馆的资源建设中受到重视。然而网络信息有着数据量大,更新速度快、分布灵活分散,无序

【作者】

：

常智荣

【出处】

：

北京邮电大学

【发表日期】

：

2010年01期

【关键词】

：

nutch 信息采集专题资源数字图书馆集成服务

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算机技术与通信网络技术高速发展,网页资源日益成为一种重要的学术资源形式,在数字图书馆的资源建设中受到重视。然而网络信息有着数据量大,更新速度快、分布灵活分散,无序化等特点。因此,如何实现对特定领域、学科的实时监测和有效分析,使图书馆用户在检索专业内容时,可以从网络信息中更快速,更准确的找到有用信息,成为数字图书馆专题资源建设工作的重点研究课题。本文在数字图书馆系统集成应用的框架下,通过对主题搜索引擎技术原理和应用的研究,对目前具有代表性的开源网络抓取软件进行了比较分析,最终选择在Nutch基础之上进行多种扩展和改进,采用正则表达式过滤、lucene全文索引、基于字典的中文分词、多线程控制、webservice、层次化自动聚类等关键技术,研究并实现了基于Nutch的专题网络资源定向采集服务系统N-WHSS (Nutch-based Website Harvest and Service system in Special field).N-WHSS系统在引入搜索引擎基本架构模型,即抓取器、索引器、查询器的基础上,根据数字图书馆系统集成应用的实用化要求,设计开发了GUI信息定制模块、信息过滤模块、基于字典的中文分词模块、专题知识库信息加工标引模块和基于webservice的检索服务模块。使得系统功能和性能方面以及实用性、易用性方面都有很大的提升。此外,在系统独立功能实现的基础上,本文特别研究了系统在数字图书馆中的集成应用,介绍了与中心仓储系统、资源加工系统和统一检索系统的集成,提高了系统的松耦合和扩展性,不仅具有实用价值也符合SOA技术发展的要求。文中首先对搜索引擎的概念,发展历史和工作原理进行了简要分析,对N-WHSS系统所依托的开源搜索引擎框架Nutch以及根据应用需求对其进行扩展改进过程中所使用的关键技术进行了深入研究,详细论述了N-WHSS的体系架构和设计方案。该文最后在系统实现的基础上,对基于Nutch的专题网络资源定向采集服务系统在数字图书馆中的实用化集成应用做了总结,并对下一步研究做了展望和建议。

其他文献

数字图书馆多层次阅读扩展系统

数字图书馆在世界很多国家受到了高度关注,并取得了迅猛发展,已经成为人们获取信息与知识的重要途径,阅读扩展则是数字图书馆必须提供的支撑性服务。本论文针对数字图书馆中

学位

数字图书馆知识管理阅读扩展关键词提取

不同移栽条件对金线莲组培苗成活率及生长的影响

观察金线莲幼苗的生长状况,统计不同移栽基质配比、种植密度、遮荫率和营养液条件下金线莲幼苗的成活率及植株高度、地径和植株鲜重的增长量。结果表明不同移栽条件对金线莲

期刊

金线莲组培苗移栽成活率生长情况

针灸联合推拿治疗神经根型颈椎病20例

目的以中医疗法视角研究针灸、推拿二者联合治疗神经根型颈椎病患者的疗效及推广价值。方法采用对比研究方法,将40例神经根型颈椎病患者分为常规物理疗法治疗的对照组和针灸

期刊

神经根型颈椎病针灸疗法推拿

地方政府防范群体性征地冲突能力研究

近年来,城镇化快速推进,大量农地被征为非农用地,征地过程中伴随着土地权属调整所引发的群体性事件也急剧上升。同时,由于农地产权特征和征地制度呈现地方政府主导特征,这也

学位

群体性征地冲突地方政府能力能力建设

泰事达公司薪酬体系存在的问题与对策

一套行之有效的薪酬系统不仅可以降低企业人工成本,而且可以吸引并留住人才,极大地激发员工的积极性、主动性和创造性,薪酬对员工的激励已逐渐成为企业人力资源管理中的核心

期刊

薪酬激励点数岗位等级

数字图书馆协同过滤及GPU计算技术研究

数字图书馆(Digital Library)正日益受到世界众多国家的高度关注,近几年取得了迅猛发展,已经成为人们获取知识与信息的重要手段之一。个性化推荐是数字图书馆的重要增值服务

学位

数字图书馆协同过滤推荐系统GPU计算

Mozzarella干酪功能特性的研究进展

本文概述了Mozzarella干酪的功能特性,并对影响Mozzarella干酪功能特性的原料乳及其处理方式、乳酸菌种和发酵剂、生产工艺条件等因素进行分析,提出了我国南方奶水牛养殖地区

期刊

Mozzarella干酪功能特性原料乳研究进展

《徐孝穆集》研究

徐陵,字孝穆,是南朝梁陈时期以文章著称的文学家,其文学成就在梁陈二代赫赫有名,被称为“一代文宗”。历来对其作品的整理研究不乏其人,但大都围绕其编选的《玉台新咏》,而很

学位

徐陵《徐孝穆集》版本校勘考论徐庾史料

全身麻醉复合硬膜外麻醉对老年肝癌患者心肺功能和术后肺部感染的影响

目的探究全身麻醉复合硬膜外麻醉对老年肝癌患者心肺功能和术后肺部感染的影响。方法选取医院2014年12月-2016年12月期间收治的100例老年肝癌患者作为研究对象。依麻醉方式分

期刊

全身麻醉硬膜外麻醉肝癌心肺功能

地域文化性在城市滨水景观带设计中的体现

将列举滨水景观带的设计原则,阐述地域文化在滨水景观带设计当中的具体体现。

期刊

地域文化性滨水景观景观带设计

搜索引擎Nutch在数字图书馆中集成应用的研究与实现

其他学术论文