全栈式通用大数据系统性能分析工具研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:woaichensi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据计算应用具有软件栈系统多样和复杂(例如Hadoop,Spark,Storm等)、负载行为多样和配置参数繁多等特点,这些特点决定了大数据计算负载的调优具有以下挑战:1)性能瓶颈和优化方案各异;2)难于定位性能瓶颈;3)难于在短时间内实现优化。由于这些挑战,传统的单机面向应用的性能分析工具在面对大数据应用时都难以快速定位性能瓶颈;与此同时,以往的大数据性能优化工作要么与大数据系统紧耦合,要么无法做到全栈式的性能数据分析。本文主要研究全栈式通用大数据系统的性能分析工具,主要贡献如下:  (1)提出了在时间和空间维度上对复杂分布式系统不同层次(体系结构、OS和应用)性能数据进行关联和特征向量化的方法。在此基础上量化定义了慢任务、慢节点、负载不均衡等性能瓶颈判断标准和配置不当、数据倾斜、异常节点和资源干扰的诊断规则。  (2)提出了两种用于大数据应用异常检测的方法:1)在时间维度关联分析基础上的基于多维指标的异常阶段检测方法,该方法通过对大数据应用的各类执行阶段进行正常特征模式建模,然后结合离群点检测来判断是否存在异常阶段;2)在空间维度关联分析基础上的基于阶段的异常节点检测方法,该方法会根据应用不同的执行阶段有针对性地采集性能数据,然后利用节点相似度算法来判断是否存在异常节点。  (3)针对大数据分析应用的特征,设计并实现了具有解耦性、分布式、全栈式特点的大数据性能分析工具的架构,该架构具有充分的解耦性,适用于不同的大数据系统(同时支持Hadoop和Spark系统),通过完全分布式处理的方法解决扩展性问题,通过体系结构、OS、应用层监控实现对于大数据分析系统的全栈式分析。  (4)基于典型的大数据系统和负载场景,对大数据性能分析工具进行了详细的评测。在系统开销方面,该性能分析工具的运行时开销不超过5%;针对典型应用场景进行了分析验证,验证了慢节点检测、异常节点检测等方法的适用性和准确度,实验表明文中设计的性能分析工具能够有效识别性能瓶颈和定位瓶颈原因。
其他文献
该文的主要工作分为三个部分:第一部分是关于替身的定义、替身的制作以及应用领域的研究.由于该文提出的系统中替身是非常重要的部分,为了容易理解及制作替身,我们不仅说明了
曲线曲面的生成算法是计算机辅助几何设计的基础,它的每一步改进,对计算机辅助几何设计有着十分重要的意义。本文比较了传统的曲线曲面绘制方法和本文所讨论的算法,指出了传统算
移动通信与Internet是当代通信发展最快的几个领域中的两个,这两者的结合又是当前的一种重要趋向.IPv6作为新一代的网络互联协议,其先进性和灵活性正在得到越来越多人的认可.
该文针对现有的两种主流技术——XML技术和中间件技术,对实现各异构数据库的信息共享做了深入的研究.首先介绍了该课题的背景,包括工程背景和XML和中间件技术的发展现状,指出
随着计算机和网络技术的日益发展,全球上网人数与日俱增,企业上网开展业务成了一种趋势。笔者所在的网络数据库课题组近年来一直致力于基于web应用的开发课题,正是迎合了企事
该文在研究了国际上流行的视频压缩编码标准的基础上,详细的分析了H.26X协议的编解码原理,重点研究此协议的原因.在进行图象编解码的过程中,我们的主要工作是消除视频在空间
数据仓库和数据挖掘技术的快速发展,促进着企业决策支持系统的不断更新,也促使企业与客户之间的经济关系发生着重大变革。客户关系管理(CRM)作为近年来数据挖掘技术在企业决策支
集群以其优秀的性价比在高性能计算和超级服务器方面获得了广泛应用,但通信开销一致是制约集群性能进一步提高的关键因素,现已成为了该领略主要研究方向。发展日趋成熟的用户级
KDD是当前数据库研究中的一个热点,概念格则是知识发现和数据分析的有力的数学工具。本文主要关注的是基于扩展概念格的数据挖掘研究,其中内容主要涉及扩展概念格的完全构造以
XML(Extensible Markup Language)是一种基于内容描述的、结构规范的、能够体现数据信息之间逻辑关系和确保文件易读性的元标记语言.XML具有内容描述和显示样式分开、自定义