论文部分内容阅读
随着移动设备的普及、传感器技术的发展以及社会网络的扩大,当今的数据规模已经达到一个空前的水平,“大数据”时代已经来临。然而,由于大数据的海量性、多样性等特征,使得关系数据库在管理大数据时往往受到扩展性和成本的限制。云计算提供了一种高扩展性和高性价比的管理大数据的平台,因此越来越多的大数据系统被转移到云计算平台上,例如Hadoop、Dryad、Pig、Hive等,其中Hadoop的应用尤为广泛。这些系统将用户从繁琐的分布式计算、协调同步等细节问题中解放出来,用户只需关注数据处理的逻辑和流程。虽然这些技术给用户带来了方便,但也使得用户无法了解系统底层的运行过程,因此无法有效的对系统性能进行调优,从而需要开发出一套基于大数据系统的自动化性能分析工具。本文论述了作者开发的大数据系统性能分析工具的设计与实现。该大数据系统性能分析工具采用Python和Java语言实现,整个系统可分为三个模块:PROFILER模块、OPTIMIZER模块、WHAT-IF ENGINE模块。其中,PROFILER模块通过调用BTrace工具,以事件驱动的方式实现了系统性能指标的抓取;WHAT-IF ENGINE模块通过建立起的一套数学模型,实现了根据变更后的配置参数,对Hadoop的性能进行预测;OPTIMIZER模块利用递归随机搜索算法和调用WHAT-IF ENGINE模块实现了对Hadoop平台主要性能指标参数的自动优化。作者独立完成了PROFILER模块和OPTIMIZER模块的设计与实现、WHAT-IF ENGINE模块的实现。参与完成了WHAT-IF ENGINE模块数学模型的建立以及该性能分析工具的功能测试。最后,论文描述了作者设计的部分测试用例,并展示了系统的运行结果。目前,该工具软件已完成开发和测试,测试结果证明该工具软件达到了预期目标。