【摘 要】
:
海量URL快速存储和访问是高性能web爬虫的基础,由于web爬虫需要根据一定的策略将URL按照一定的顺序进行抓取,因此,为了快速查找,URL往往被保存在关系数据库中。但是当数据库
论文部分内容阅读
海量URL快速存储和访问是高性能web爬虫的基础,由于web爬虫需要根据一定的策略将URL按照一定的顺序进行抓取,因此,为了快速查找,URL往往被保存在关系数据库中。但是当数据库中数据的数量规模很大时,关系数据库往往不能满足爬虫对海量URL数据存取的需求。这个也是提高web爬虫性能的瓶颈所在。本文的研究是为了解决海量URL存取的性能瓶颈问题。通过对聚焦爬虫在实际环境中爬行的过程进行深入的剖析,明确了爬虫对海量URL数据存取的技术需求。针对这些技术需求我们进行了深入的研究,并在研究的成果上提出了面向海量URL存取的快速文件系统。根据功能文件系统分为逻辑存取模型和物理存取模型,并最终能够取得满足爬虫需求的效果。本文的主要贡献有:1)以B+树作为快速文件系统逻辑存取模型的索引,并且以域名和URL的哈希值联合作为B+树的索引关键字,提高了URL记录查询的效率。并且通过叶子节点平移的延迟分裂方法优化了B+树的空间利用效率。2)在物理模型中,通过分析web爬虫对URL的需求,在URL访问的局部性原理,硬盘的顺序读写,web爬虫抓取网页的可重现性和延迟写技术的理论基础之上,对缓存技术做了适当的优化,大大的减少了I/O的访问,提高了效率。3)本文设了一个面向海量URL的快速文件系统,并实现了快速文件系统的原型,该系统实现了上述讨论的所有功能,为以后URL的存储的研究打下了坚实的基础。
其他文献
继主机计算、桌面计算之后,计算机迎来了普适计算这个新的计算模式。研究者们希望在该模式下,任何人可以在任何地方任何时候获取自己需要的任何服务。要成功的实现这一目标,对服
磁共振成像技术是一种无介入性伤害的医学成像技术,磁共振图像对医生的诊断起到辅助作用。使用计算机分析磁共振图像,能够提高诊断的效率和准确率,对疾病的预防和提前治疗具
语义Web技术解决了传统Web服务发现查全率和查准率低下的问题,已成为国内外的研究热点。然而由于语义计算的复杂性,导致了语义Web服务发现效率低下,如何在保证查全率和查准率
随着移动定位技术的发展,位置服务(Location-based Service)中的时空对象位置隐私保护技术成为学术界关注的热点。目前,时空对象位置隐私保护技术研究在情境感知下位置隐私保
随着业务规模的不断扩大以及业务变得越来越复杂,企业经常需要增加内部应用系统。如果这些应用系统在设计时没有将其作为整个企业信息系统的一部分,将造成各个应用系统之间的协
传感器网络的覆盖问题是传感器网络的重要研究内容,较强的监视能力和较高容错率对传感器节点的覆盖质量提出了较高的要求。论文从提高区域覆盖质量和延长网络使用寿命两个角
数据挖掘是多个领域的交叉学科,用于分析海量数据中的潜在关系以给人们提供有价值的帮助。聚类分析是数据挖掘中的重要技术,它是在无先验知识情况下,按照一定的要求和规律,将
机器学习是一种旨在设计和实现特定算法,使得计算机能够根据经验数据进化自身行为。它隶属于计算机科学中的人工智能范畴,也是近来人工智能学科研究最活跃的子领域。机器学习的
计算机、互联网以及普适计算等理论技术的发展正在深刻地影响着人们的生活。同时人机交互技术也越来越多的融入到人们的工作和生活之中。伴随社会发展与科技的进步,传统的人