利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:GaryCong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的快速发展,网站对于Ajax技术的应用越来越多。Ajax技术通过异步调用,进行页面局部刷新,在很大程度上提高了用户的体验度、减少了网络传输流量以及提高了网站的访问速度等。在Ajax技术使得互联网的交互模式发生变革的同时,也给用户和开发人员带来了一系列的问题。例如JavaScript代码的使用和编写不规范、浏览器的不兼容性、页面请求次数过多、Ajax技术的滥用造成的服务器负担过重等许多问题。爬虫系统属于搜索引擎中的一个必备的数据采集子系统,搜索引擎根据爬虫系统采集的数据建立索引后,对用户提供搜索服务。Ajax技术的大量使用对于搜索引擎也有着重要的影响。传统的搜索引擎只提供了对静态页面的数据的搜索服务,对由Ajax技术产生的动态数据却不能提供搜索服务。Ajax技术的大量使用造成了由Ajax技术生成的页面动态数据的日益庞大。这部分动态数据在数据分析、数据挖掘等方面都具有重要的意义。例如新浪新闻上面的部分评论是通过Ajax技术动态生成的,这部分数据的采集对于国家安全方面是有着重要意义的。本论文通过对Nutch进行改进,增加部分模块,建立了一个能够爬取Ajax动态数据的网络爬虫系统,并且根据数据建立了索引,对用户提供了搜索服务。
其他文献
由于IT行业的持续发展和人们对各种程序的性能的要求持续提高,处理器的研究也在持续发展,处理器的运算速度也随之持续上升。单核时期,Mooreslaw反应了处理器的发展规律,采用增加
无线传感网络是一种资源有限的无线自组织网络,通常部署在恶劣环境条件下,节点的通信性能较差,其传输功率有限,感知信息难以准确可靠的传回到汇聚节点。因此,如何使资源有限的传感
移动自组织网络中,节点随机移动会引起网络拓扑频繁地、不可预知地变化,进而导致节点之间的通信链路断开,路径失效,带来大量的路由重建,耗费了有限的网络资源。然而,研究表明,节点移
移动Ad Hoc网络是一种由多个不依靠基础设备而独立运行的无线终端组成的多跳分布式自治网络。近年来,随着通信技术的不断发展和硬件设备性能的不断完善,Ad Hoc网络逐渐引起广
大量的具有无线通信功能的各种传感器节点组成了新一代的无线传感器网络,这些节点采用多跳方式通信,并且可以构成自组织无线网络。在社会生活、环境监测、航空航天、军事国防等
目前世界上最新的文语转换系统(Text-to-Speech)虽然能够合成可以很容易理解的话语,但是缺乏自然语言中所蕴含的韵律特征。这是由于单句录音构建的语音语料库所训练出来的模型在
互联网的快速发展对大规模数据处理技术提出了新的挑战,目前业界广泛使用的数据处理系统多数基于Google提出的MapReduce并行处理框架,MapReduce在处理静态批量数据时优势明显,然
我们生活在一个信息时代,每天接触的信息不计其数。而图像作为信息载体之一,是人们获取信息的有效途径。科学研究表明,人类接受的外界信息有3/4是通过视觉器官来得到的。与声音
社会化标注是用户产生的用于描述网络资源的关键词,区别于传统的自上而下的信息传播方式,社会化标注来源于广大的互联网用户,作为一种新兴的重要的信息资源,能够与广大的互联
中国的高速铁路这些年快速发展,其对公众生活影响愈发广泛。高速铁路的安全运行关系到旅客的健康和生命,显得尤为重要。高铁接触网作为向电力机车供电的设备,其上有可能附着