【摘 要】
:
Web上信息就像一条河流,从我们身边不停流过.已经有很多人认识到这些信息的价值,从而展开了对Web信息多方面的研究.该文阐述的内容就是基于这些研究,并希望能够对他人的相关
论文部分内容阅读
Web上信息就像一条河流,从我们身边不停流过.已经有很多人认识到这些信息的价值,从而展开了对Web信息多方面的研究.该文阐述的内容就是基于这些研究,并希望能够对他人的相关工作带来方便.文章围绕的中心是Web数据的高效获取与存储,为此也专门研究了信息在Web上大量重复出现的现象和原因.该文的主要内容包括:(1)有关Web信息状况的一些统计数据,结合一些Web的基本概念,这些数据让读者对Web宏观上能有一些具体的认识.这是理解该文其他部分的基础,(2)提出了同义主机的概念.该文通过分析IP地址与域名的关系,总结出哪些主机名有同义关系,从而避免了网页的重复获取.(3)该文还具体的讨论了Web数据获取系统的设计目标,并给出了计算系统效率的方法.然后参照这些设计目标,比较了两种具体的收集系统结构.(4)同时,论文还基于Web InfoMall的目标,给出了一种海量网页存储系统的设计方案以及实现的种种考虑.
其他文献
网格计算旨在通过分布式环境下异构组织间动态的资源共享和协作来求解复杂的计算问题。网格的动态性为网格实施带来了复杂的安全问题,安全问题同时贯穿于网格体系结构的各个
对非受限的自然语言文本进行自动句法分析目前仍是自然语言处理所面临的一个巨大挑战,即使对于英语这样得到充分研究的语言至今年内也还没有一个可以处理非受限文本的高性能
本文共分四章,在第一章中,论文首先介绍了分形图像压缩的研究背景及现状,给出了分形理论的严格定义及其基本性质,并且对它们在图像压缩中的应用做了简单阐述.接下来,在第二章
近年来,物流配送作为“第三方利润源泉”受到各行各业的重视。如何构建一个合理高效的物流配送系统来降低配送成本、增加效益成为物流学者们广泛关注的问题。 本文将地理
传统的企业应用集成技术不能适应企业信息系统的快速增长,WEB服务使应用程序的集成比以前更快、更容易而且更便宜.集成在协议栈中较高层发生,它使用基于XML格式的SOAP消息进
解决配送车辆的路由问题,是现代物流系统优化的关键,也是电子商务中的重要环节.车辆优化调度,能够降低物流运营成本、提高物流工作效率.该文针对各类路由问题模型及其优化算
医学图像三维可视化重建算法是目前医学影像领域研究的一个热点问题,它横跨计算机图形学、计算机图像处理和生物医学工程等学科,目前在医学辅助诊断、手术仿真、医疗教学等方
生物识别技术是利用人体所固有的生物特征来进行自动身份识别的技术.人体生物特征具有普遍性、唯一性和稳定性等特点,并且不会被遗忘,也较难被模仿或伪造.与传统的身份识别方
本论文在深入研究语义Web的体系结构、关键技术的基础上,对逻辑推理系统和基于OWL的语义Web推理技术作了研究,主要创新性工作包括: 提出一个基于规则的OWL推理系统模型:基
Internet正从一个主要用于交换和共享信息的网络演变成为一个开放协同软件环境。其安全问题呈现出许多新特点,如安全分析主体的复杂化、安全信息的不完整性、安全度量的相对化