论文部分内容阅读
随着Web2.0的快速发展,网站对于Ajax技术的应用越来越多。Ajax技术通过异步调用,进行页面局部刷新,在很大程度上提高了用户的体验度、减少了网络传输流量以及提高了网站的访问速度等。在Ajax技术使得互联网的交互模式发生变革的同时,也给用户和开发人员带来了一系列的问题。例如JavaScript代码的使用和编写不规范、浏览器的不兼容性、页面请求次数过多、Ajax技术的滥用造成的服务器负担过重等许多问题。爬虫系统属于搜索引擎中的一个必备的数据采集子系统,搜索引擎根据爬虫系统采集的数据建立索引后,对用户提供搜索服务。Ajax技术的大量使用对于搜索引擎也有着重要的影响。传统的搜索引擎只提供了对静态页面的数据的搜索服务,对由Ajax技术产生的动态数据却不能提供搜索服务。Ajax技术的大量使用造成了由Ajax技术生成的页面动态数据的日益庞大。这部分动态数据在数据分析、数据挖掘等方面都具有重要的意义。例如新浪新闻上面的部分评论是通过Ajax技术动态生成的,这部分数据的采集对于国家安全方面是有着重要意义的。本论文通过对Nutch进行改进,增加部分模块,建立了一个能够爬取Ajax动态数据的网络爬虫系统,并且根据数据建立了索引,对用户提供了搜索服务。