【摘 要】
:
随着互连网的迅猛发展,越来越丰富的信息展现在人们面前,但是面对海量的互联网资源,人们感兴趣的往往只是某一领域的专门信息。如何从纷繁芜杂的网络信息中快速准确地找到人
论文部分内容阅读
随着互连网的迅猛发展,越来越丰富的信息展现在人们面前,但是面对海量的互联网资源,人们感兴趣的往往只是某一领域的专门信息。如何从纷繁芜杂的网络信息中快速准确地找到人们希望的信息,是一个意义巨大的问题。1994年开始出现的基于Web的网络爬行器自然而然地成为人们的希望所在,虽然通用网络爬行器已经给人们提供了极大的便利,但是由于它的综合性,不具备面向专业的特点,所以在准确性和速度等方面存在不足;为了提高信息服务的质量,人们开始研究面向主题的网络爬行器。本文主要研究面向主题网络爬行器的两个方面的问题,一是如何充分定义这里的主题,二是如何有效的排序爬行器的待下载链接队列中的链接,来使得只需访问很少的不相关的页面,就能够得到很多的相关的页面的链接。本文结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示这是一种寻找主题相关页面很有效的方法。Blog作为一种新兴的互联网现象,正在被越来越多的人所关注,本文把Blog作为一种特殊的“主题”,设计并实现了一个面向Blog的网络爬行器。随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络。就目前互联网的规模来说,单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。分布式网络爬行器采用多机并行工作,提高整个系统的工作效率,并具有良好的可扩展性,是必然的发展趋势。本文在分布式设计中,主要考虑了节点内部多个线程的并行和节点之间的分布式并行。并重点讨论了节点之间的分布式并行,其中包括分布式网络爬行器的策略选择和动态可配置性问题两个方面。实验结果显示本文采用的站点散列法基本达到了分布式设计的目标:单台机器的搜集能力不应随着搜集机器数量的增加下降很多,即要在追求负载平衡的同时将系统的通信和管理开销降到最低。
其他文献
企业资源计划作为一种先进的企业管理理论和实践,将企业的物流、资金流和信息流统一起来进行管理,对企业所拥有的各项资源进行整合,最大限度地利用企业所有资源为企业带来最大的
本文以手持终端为研究背景,采用基于GPRS网络和实时操作系统μC/OS-II的嵌入式解决方案,论述了基于GPRS网络和实时操作系统的嵌入式手持终端的设计、实现及功能扩展。文章详
随着门户网站的快速发展,越来越多的业务系统集成到统一门户下。安全性成为门户网站开发中的重要组成部分。门户网站安全性主要有成员服务、身份认证、授权和单点登录等几个方
本文将介绍一种在Linux虚拟实验系统中的基于Applet方式的SSH仿真终端的研究和设计。文章首先分析了终端及仿真终端的演进过程,指出早期的TELNET仿真终端的功能和缺陷。接下来
在企业信息系统软件的开发中,为了提高开发效率、增强软件的可复用性和可移植性等性能,越来越多的软件开发都采用模型驱动架构(Model Driven Architecture, MDA)方法学。但是
Peer-to-Peer(P2P)系统的开放结构使其具有如下特性:适应性、自组织性及可扩展性,并能通过大量副本实现高可用性。因此,基于P2P环境的电子商务系统发展十分迅速。但是,P2P电子商
近年来,随着网络技术的迅速发展和J2EE平台的广泛应用,基于B/S的多层Web体系结构逐渐发展成熟起来。与此同时,这也促进了e-Learning平台的研究与发展。 本文在分析e-Learning
网格是继万维网之后出现的一种新型网络计算平台,是为用户提供全面共享各种资源的基础设施。由于网格中的资源具有分布、动态、异构、大规模、多组织等特征,因此网格资源的组织
信息战已成为未来高技术局部战争的主要作战样式,制信息权和制空权、制海权一样,成为战争胜负的关键。导航战是信息战的重要组成部分,现代战争精确快速的定位和导航是提高军事武
随着Internet技术的发展,加强实验环境的建设,利用模拟(Simulation)技术辅助解决网络的鲁棒性、可维护性和传输可靠性等问题是当前研究的一个热点。网络模拟是进行计算机网络