论文部分内容阅读
分布式垂直搜索引擎技术是传统的垂直搜索引擎技术和分布式技术的结合,它利用多台计算机构成一个分布式计算与处理集群,可以解决垂直搜索引擎面对大规模网页数据时容易出现的响应速度慢、准确率低、扩展性差以及可靠性低等问题。主题网络爬虫和网页数据存储都是分布式垂直搜索引擎技术的关键组成部分,而且主题网络爬虫的爬行效率、准确率以及网页数据的存取效率都与分布式垂直搜索引擎技术的整体性能有着至关重要的联系。因此,对主题网络爬虫与网页数据存储进行研究具有较大的理论意义和实用价值。 本文首先对搜索引擎的相关理论知识和关键技术进行了研究与介绍,然后在此基础上借鉴已有研究成果,对分布式垂直搜索引擎技术中主题网络爬虫和网页数据存储进行了较为详细的研究,具体的研究内容包括: (1)针对传统的主题网络爬虫在连续爬行时准确率不易提高、在考虑链接结构特性时计算的时间复杂度偏高等问题,研究并设计了学习型主题网络爬虫。首先,在爬行过程中添加学习过程,通过主题相关度分析、中心性计算以及相关度判断完成知识库的创建与更新,以提高连续爬行时的准确率。然后,利用主从式的分布式架构,通过主节点控制、协调与管理多个从节点的并发运行,以提高爬行效率。最后,实验结果验证了学习型主题网络爬虫的准确性、高效性、可靠性以及易扩展性。 (2)针对HDFS在存取大量网页小文件时效率低的问题,研究并设计了网页数据存储架构。首先,采用合并策略将主题相关的若干网页小文件合并成网页大文件,以提高存储效率。其次,利用改进的存储策略将合并后的网页大文件存储到HDFS中,以提高读取效率。然后,利用优化后的HBase转存网页大文件,以支持多用户实时写入和任意修改。接着,利用缓存策略对网页小文件进行读取操作,减少访问主节点的次数,以进一步提高网页小文件的存取效率。最后,实验结果验证了网页数据存储架构的高效性、可靠性以及易扩展性。