分布式垂直搜索引擎技术研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:crackerking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式垂直搜索引擎技术是传统的垂直搜索引擎技术和分布式技术的结合,它利用多台计算机构成一个分布式计算与处理集群,可以解决垂直搜索引擎面对大规模网页数据时容易出现的响应速度慢、准确率低、扩展性差以及可靠性低等问题。主题网络爬虫和网页数据存储都是分布式垂直搜索引擎技术的关键组成部分,而且主题网络爬虫的爬行效率、准确率以及网页数据的存取效率都与分布式垂直搜索引擎技术的整体性能有着至关重要的联系。因此,对主题网络爬虫与网页数据存储进行研究具有较大的理论意义和实用价值。  本文首先对搜索引擎的相关理论知识和关键技术进行了研究与介绍,然后在此基础上借鉴已有研究成果,对分布式垂直搜索引擎技术中主题网络爬虫和网页数据存储进行了较为详细的研究,具体的研究内容包括:  (1)针对传统的主题网络爬虫在连续爬行时准确率不易提高、在考虑链接结构特性时计算的时间复杂度偏高等问题,研究并设计了学习型主题网络爬虫。首先,在爬行过程中添加学习过程,通过主题相关度分析、中心性计算以及相关度判断完成知识库的创建与更新,以提高连续爬行时的准确率。然后,利用主从式的分布式架构,通过主节点控制、协调与管理多个从节点的并发运行,以提高爬行效率。最后,实验结果验证了学习型主题网络爬虫的准确性、高效性、可靠性以及易扩展性。  (2)针对HDFS在存取大量网页小文件时效率低的问题,研究并设计了网页数据存储架构。首先,采用合并策略将主题相关的若干网页小文件合并成网页大文件,以提高存储效率。其次,利用改进的存储策略将合并后的网页大文件存储到HDFS中,以提高读取效率。然后,利用优化后的HBase转存网页大文件,以支持多用户实时写入和任意修改。接着,利用缓存策略对网页小文件进行读取操作,减少访问主节点的次数,以进一步提高网页小文件的存取效率。最后,实验结果验证了网页数据存储架构的高效性、可靠性以及易扩展性。
其他文献
用户界面是人机交互的重要组成部分,它是用户和计算机进行沟通和交互的桥梁。随着计算机和网络资源的不断发展,人们对用户界面的要求也越来越高。然而,标记语言,编程语言,界
服务质量(QoS)问题是传统网络中非常重要的技术之一,由于网格环境的复杂性和特殊性,要保证一定的服务质量需要解决很多难题。随着网格技术的发展,网格服务质量问题成为一个新
学位
云存储是在云计算的概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术。云存储利用集群应用和分布式文件系统等软件,将网络中大量类型不同、容量不同的存储设备
语音不仅是人类日常交流中的重要工具,也是百万年来哺乳动物大脑进化的结果。这项复杂的功能是区分人类和其他动物的重要标志,包括了大脑对语言从声音到图形乃至抽象符号层面
随着计算机软件对人们生活的影响的逐渐扩大,人们对软件的数量和质量的需求也日益提高。在软件开发和维护过程中存在的一系列问题,被称为“软件危机”。其中,一个重要因素就
移动Ad Hoc网络是目前国内外计算机网络技术研究领域的一个热点,路由协议是AdHoc网络的核心技术之一。为了提高AdHoc网络路由协议的性能,国内外很多学者和专家开始研究基于位
在分布式协作开发环境中进行系统设计工作时,要求处于不同机器上的设计工具之间能够通过网络相互通信,从而使得各个设计工具可以相互协作,这需要开发网络通信软件来提供相应
针对XML文档的访问控制保证XML文档中的敏感信息不会受到非授权的访问。用户对文档的访问包括读操作和更新操作,现有的XML文档访问控制研究多数都以读操作为例或对更新操作的
语音识别经过半个世纪的发展,其理论研究已经取得了一定的成果,在实验室环境中取得了极高的识别率,并且已经从实验室走向实用。然而离人们所期望的语音识别能力跟人一样的目