nutch相关论文
随着网络信息的指数级增长以及行业分工的不断加大,专业领域应用中网络信息在精度和深度方面的缺陷日益明显,专业领域主题Web信息的......
校园网是学校信息化建设的基础设施,是广大师生完成教学和科研的一个重要平台。基于P2P校园网搜索引擎利用P2P分布式体系结构,将网络......
随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们......
基于Nutch开源搜索引擎框架,本文对其所基于的Hadoop平台提出了一种基于数据块动态分配的策略,从而实现了文件的分块存储,同时改进......
随着学术信息的快速膨胀和互联网技术的快速发展,近年来,网络中的学术资源呈现出规模大、增长速度快、来源和组织结构不统一的特征......
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动地对网页上大量数据信息的收集、解析、格式化存储,提出......
伴随着互联网技术的迅猛发展,全球每天产生的数据量呈爆炸式增长,相关的大数据关键技术也得到大力发展,其中的云计算技术已经发展......
随着Web信息量的飞速增长,越来越多的人希望能够快速且有效地找到自己所需要的与特定领域主题有关的信息,目前通用搜索引擎(search e......
摘要:该文主要介绍了垂直搜索引擎的概念及优越性,对垂直搜索引擎理论和技术进行了深入的分析,重点介绍了网络蜘蛛的运行规则设计,并使......
文章描述了以留学信息深度搜索引擎的搭建为例进行基于Nutch的插件开发.首先使用Nutch作为网络爬虫,并使用TF-IDF算法构建特征词库......
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于GoogleGFS和MapReduce的开源云平台.利用Nutch和Ha—doop可以设计高效、可靠、可扩......
Nutch是一个开源的搜索引擎,它在中文分词的效率和准确度上不能满足实际需要。本文对Nutch中的原分词方法进行修改,提高了信息检索......

