论文部分内容阅读
随着互联网应用的发展,尤其是近几年来海量级数据规模的应用不断出现,非结构化数据存储和处理需求迅速增长,这些新的海量数据应用对数据存储有了新的需求,传统关系型数据库逐渐暴露出一些缺陷,不能很好地满足这些新的应用需求。非结构化分布式存储技术(NOSQL, Not Only SQL),是针对以上应用需求而产生的,是一种全新的非关系型的分布式存储技术,采用新的数据模型,具有海量数据存储、高性能、高可用性、强伸缩性等特点。非结构化分布式存储技术的产生不是为了取代传统的关系型数据库系统,两者的应用场景是不同的。当前许多非结构化分布式存储系统已经用于这些海量数据规模的应用。近年来,随着非结构化分布式存储系统被越来越多的企业与个人关注,对非结构化分布式存储系统的性能分析与调优也成为了业界的热点研究问题。在分布式环境中,如何对这类系统进行有效的性能分析与评测,以实现对非结构化分布式存储系统性能的调优,对非结构化分布式存储技术不断发展有着重要意义。我们对现有的性能分析方法、系统进行了分析,针对现有的性能分析方法或系统对非结构化分布式存储系统进行性能分析的不足,提出了一种新的面向非结构化分布式存储系统的性能分析方案。在分布式环境中,将非结构化分布式存储系统的客户端性能数据与服务器端数据流处理活动相关联,对系统进行深入的性能分析与评测。在任务执行过程中,采用基于数据流的分布式插装机制监测服务器端的运行时行为与数据流处理活动,并与客户端收集到的性能数据关联到同一时间轴上,对非结构化分布式存储系统进行更底层更深入的性能分析,帮助开发人员寻找与确定潜在的优化点,以实现对非结构化分布式存储系统的性能调优。本文所提出的性能分析方案优点在于:首先是轻量级的、具有较好伸缩性的性能分析系统。其次,不修改非结构化分布式存储系统的任何源代码,具有较好的扩展性。最后,性能分析系统的运行开销是非常低的,通过评测,对非结构化分布式存储系统性能造成的影响不到1%,可以忽略性能分析系统运行对非结构化分布式存储系统造成的性能影响。在实验中,我们通过具体的案例,详细阐释了本文的性能分析系统怎样帮助用户进行性能分析,发现潜在优化点以实现系统