数据计算中的键值对通信技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wsw361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据计算是指采用商业集群进行分布式计算解决大规模数据的存储、分析等问题的一类计算模式。随着互联网的发展,数据规模的增长,工业界和学术界对数据计算进行了广泛而深入的研究,提出了多种计算模式(如批处理、迭代处理、流处理等)、丰富的计算框架(如Hadoop、Spark、Storm等)、完整的生态系统。高性能计算是指利用聚集起来的强大计算能力处理一般服务器无法完成的数据密集型计算任务的一类计算模式。高性能计算经过几十年的发展,方兴未艾,并积累了深刻的计算理论和丰富的系统软件。研究表明,当前数据计算系统在执行能效上与高性能计算相比还有4-5个数量级的差距。这主要因为当前的数据计算技术在利用计算资源方面存在诸多开销。这其中,通信操作是主要的开销来源之一。相关工作表明,部分应用的数据通信时间可以占到总运行时间的50%以上。而当前的数据计算通信技术还不能有效的解决通信开销大、系统运行效率低的问题。  本文认为造成这样的问题在于现有的数据计算通信技术与其通信需求不匹配,缺乏对数据计算通信操作的分析和刻画、缺少一套面向数据计算通信的操作规范和通信库实现、缺少对数据计算通信技术的度量和评价工具。  针对上述问题,本文的主要工作是通过优化数据计算通信操作,提高数据计算系统的执行效率。本文的创新贡献如下:  (1)本文提出了键值对通信的执行模型DPTA和抽象定义模型KVC。数据计算的通信特征包括,通信数据采用键值对的数据结构,通信方式是集合通信,通信数据量不受内存大小限制,通信过程蕴含计算操作。当前的通信技术不能满足同时具有这四个特征的数据计算通信需求。因此,本文提出了针对数据计算的通信执行模型DPTA,将通信操作分为数据层、分区层、转移层和聚合层四个层次,刻画了采用集合通信方式、计算与通信并发的数据计算通信过程。进一步,本文提出了面向键值对数据结构的通信操作,键值对通信KVC,反映了通信的数据结构特征和通信操作与内存大小无关的特征。  (2)本文通过扩展MPI通信原语设计了面向键值对数据的通信规范KV-MPI,并设计实现基于KV-MPI的键值对通信库DataMPI。KV-MPI通信规范依据键值对通信操作定义了4组控制操作,10个通信原语和若干配置参数,实现了通信操作的简洁性和易用性。DataMPI采用了异步通信方式减少计算和通信的同步开销,采用计算和通信并发执行提高系统执行效率,采用内存数据缓存减少不必要的IO操作。本文还介绍了DataMPI的多模式特性,并具体阐述了DataMPI支持MapReduce计算和迭代计算两种通信模式的设计思路。  (3)本文提出了键值对通信技术的基准测试程序KVCBench。KVCBench提供了面向通信操作的基础测试程序和基于应用实例的端到端测试程序。在端到端测试方面,KVCBench设计了微基准测试和应用计算两类测试负载,并集成了包括键值对通信库在内的4个的数据计算框架,可以实现对键值对通信操作的横向比较。  测试结果显示DataMPI具有良好的可扩展性。通过运行TeraSort和WordCount微基准测试程序,本文发现DataMPI相比于Hadoop能够分别有30%和40%以上的性能加速比。运行PageRank和K-means迭代测试程序,本文发现DataMPI相比于Hadoop能够分别有93%和67%以上的性能加速比。  DataMPI和KVCBench都已开源,DataMPI的工程链接为https://github.com/mpi-d/DataMPI;KVCBench的工程链接为https://github.com/leonf88/KVCBench。
其他文献
无线传感器网络是学术界和工业界近年来的研究新热点,而无线传感器网络操作系统、数据管理等软件平台作为无线传感器网络应用的基础,亦受到了更多的关注。   本文介绍了无线
人们对组合结构的兴趣或偏爱可以追溯到人类文明的起源。在最近60多年里,从1946年第一台现代电子计算机出现到它的发展、应用和普及;从传统电话、电报的发明到现代计算机网络、
样条函数在计算机辅助几何设计(CAGD),计算机辅助设计及制造(CAD/CAM)等领域中,已经成为不可缺少的工具,同时又是散乱数据插值和拟合中重要且常用的方法之一,在小波及有限元等领
医学图像配准是近年来医学图像处理领域中的热门研究方向之一,吸引了广大科技工作者在这一领域进行研究,为图像融合、图像镶嵌等图像应用打下了很好的基础。本文在充分理解传
信息技术在生产和生活中获得越来越普遍的应用,在信息和数据的不断累积中,数据信息的安全性和实时性受到各个行业的高度重视,对数据的连续保护逐渐提升到重要日程。连续数据
随着网络的广泛普及和面临的信息战、经济金融的威胁,信息安全问题带来的影响将会全方位地涉及到一个国家的政治、军事、经济、文化、社会生活等各个方面。信息安全技术的发展
方向关系是空间数据库中重要的空间关系之一,在地理信息系统、多媒体系统和图像数据库等领域都有着重要应用,它经常用作空间查询中的选择条件,而方向关系查询的效率一直是学
入侵检测系统作为保护计算机系统安全的重要手段其应用越来越广泛,然而随之产生的大量原始报警事件也带来了新的问题:数量巨大、误报警多、重复报警多,影响了对入侵检测系统的有
随着可视化理论和计算机图形学的飞速发展,三维地质建模和可视化成了当前国内外研究热点。地质建模可视化技术为地质工作者在3D空间中观察地质结构、分析地质特征提供了新的
网络系统已经发展到大规模、分布式的无界网络;随着网络复杂性的加剧、系统规模和速度的增长、系统之间依赖性的加强,信息系统的安全问题层出不穷。但是传统的安全技术着重于