论文部分内容阅读
随着Internet应用的普及以及信息的飞速增长,越来越多的企业或政府组织开始采用企业竞争情报系统来收集、分析和管理他们所需的Web情报信息。这就对企业竞争情报系统中的关键技术——分布式Web信息存储提出了巨大挑战。如何构建大规模、高效率、易于扩展、高可靠性的应用于企业竞争情报的存储系统,是分布式Web信息存储技术迫切需要解决的问题。本文从如何提供高可用、高可靠、高效率的分布式Web信息存储服务的角度出发,在对分布式存储领域的最新研究成果进行了系统学习和总结的基础上,结合企业竞争情报应用的背景,围绕着分布式存储机制、节点内Web信息存储组织结构以及Web信息版本管理这三个方面进行了深入细致的研究,取得了若干创新和成果。1.本文提出了一种分布式Web信息存储的加权轮询负载平衡算法,并应用该算法建立起分布式Web信息存储模型。该模型通过负载平衡算法将各个Web信息存储节点的磁盘空间组织成一个统一存储池,利用目录管理服务器来对存储池进行分配和管理。该模型以星形拓扑结构来组织节点,并采用Web信息自适应通道传输策略,为用户提供高效、透明的存储服务。2.本文针对Web信息文件小数量多的特点,提出了一种Web信息存储文件结构——PAK文件结构。该结构将多个Web文档经过高效压缩、分类处理、统计信息等操作,统一打包,节省了磁盘空间,又避免了频繁的磁盘I/O操作,提高了存储的效率。同时,采用PAK文件结构,也为用户各种不同的存取模式提供了良好的接口。3.本文提出了一种Web信息版本管理模型——基于时间序列的自适应Web多版本管理模型。该模型综合考虑用户对可用性、访问效率的需求以及数据的维护开销,对版本的数量进行动态管理,既提高数据可用性、降低访问延迟,又能减少维护数据的开销,为用户提供了较好的存储服务。