海量数据处理编程模型的研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:weiziqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据处理是云计算的核心技术之一。在互联网、商业和科学计算等领域,数据量已经达到TB甚至PB量级,并且数据在爆炸性地增长。分析海量数据能够给我们带来新的知识和深刻的洞察。结构化数据分析、大规模图计算和流式数据处理等各种数据密集型计算的特点截然不同,需要面向领域的编程模型才能更有效地解决。围绕如何在大规模集群上高效地处理海量数据,产业界和学术界已经研发了多种编程模型。目前的编程模型采用即席方式实现,代码难以理解和维护;系统架构不灵活,既不支持构建多种编程模型,也不支持编程模型之间的集成。因此,有必要重新思考已有编程模型的设计选择,重新定义编程模型的实现方法和系统架构。   在本文的研究中我们探索了通用的方法,致力于在统一的系统架构之上构建各种主流的编程模型。我们设计并实现了一个通用、可扩展的编程框架--Transformer(变形金刚),并在腾讯的数据中心内验证了系统的设计。具体而言,在海量数据处理编程模型领域,我们取得了如下的研究成果:   1.提出了一种构建编程模型的范式,设计并实现了四个编程模型   我们首次提出以统一的方法构建编程模型,并给出了相应的编程范式。我们将编程模型显式地划分为两层:模型相关系统和公共运行时系统,两层之间通过send和receive两个原语进行交互;模型相关系统负责计算的执行逻辑,公共运行时系统负责处理并发、网络通信、数据传输和失效检测等底层细节。该编程范式极大地简化了编程模型的构建,降低了实现的复杂度。为了充分说明编程范式的通用性,我们设计并实现了Dataflow-Transformer、MapReduce-Transformer、AllPairs-Transformer和BSP-Transformer。等四个编程模型。实验结果验证了编程范式的有效性。   2.提出了一种支持多种编程模型的系统架构   Transformer支持多种类型的计算在同一个框架内并发执行,共享同一个集群。工作原理是公共运行时系统管理作业和资源,并动态地创建相互独立的作业运行实例;每个作业运行实例与公共运行时系统之间采用“请求-分配”的模式工作,即每个作业运行实例向公共运行时系统申请资源,由后者负责分配资源。实验结果验证了系统架构的可行性。   3.提出了一种简单有效的挂起与恢复方法   我们发现许多类型的计算都具有一个“天然”的同步点,我们将这个特性与挂起/恢复结合在一起,提出了一种轻量级的挂起与恢复机制,称之为推迟挂起。工作原理是将计算划分成多个连续的串行执行阶段,如果在当前阶段内接收到挂起请求,执行完当前阶段后停止下一阶段的计算。该方法具有适用范围广、实现代价小、系统开销小和恢复速度快等优点。实验结果验证了方法的有效性。   4.提出了编程模型性能优化的度量指标   我们指出了影响编程模型性能的三个重要因素,包括数据本地性、负载均衡性和访问均衡性,并给出了三个基于统计意义的度量指标,包括数据本地化比例、负载均衡系数和访问均衡系数。我们以腾讯生产性Hadoop系统为案例评价了度量指标。
其他文献
域名系统(DNS)是因特网的一项核心服务,它作为可以将域名和IP地址相互映射的一个分布式数据库,能够使人们更方便的访问互联网。然而DNS协议本身在设计时并没有充分的考虑到其
人体检测是计算机视觉与模式识别领域中的研究热点,具有较强的理论意义及较大的应用价值,受到国内外研究人员的广泛关注。图像传感器捕捉到的人体目标具有一定的姿态与视角变化
无线传感器网络被广泛应用在军事和民事各个领域,随着应用范围的不断扩大,包含移动节点的应用逐渐增多,成为了无线通信领域的热点问题。传感器节点采用电池供电,且不易更换,
随着计算机网络技术的发展以及网络规模的扩大,计算机网络正承受着诸如黑客攻击等技术的威胁,因此计算机网络安全状况成为人们关注的焦点。入侵检测技术作为在防火墙之后保护
近年来出现一类具有链路长延迟、端到端路径频繁中断、能量缺乏供给、存储能力有限等特点的网络,该类网络无法直接应用现有Internet体系结构和协议。针对这些特点,研究人员提
符号计算是数学、计算机和人工智能相结合的一门交叉学科。随着计算机硬件性能的提高和软件功能的增强,人们通过计算机程序化地处理一些数学推理和代数计算问题逐渐成为可能。
随着互联网与信息技术的发展,电子商务的运营模式逐渐被人们所接受,但是传统的电子商务模式因其系统功能单一、交易成本高、自动化程度低等原因不能适应用户们的需求,因此人
大气电学是研究电离层以下的大气中所发生的各种电学现象及其生成和相互作用的物理过程的学科,是大气物理学的一个重要分支。大气电学的研究是当前世界各航天大国所面临的共
作为云计算的核心技术之一,虚拟化是计算机系统技术领域当前的研究热点。虚拟化技术的资源共享、对异构平台的抽象性、隔离性和在线迁移等特性,使之广泛应用于各个数据中心。然
数字家庭是当前世界各国正在努力探索的新型产业,发达国家已经在基础通信、智能家居和养老服务等方面取得显著进展。中国数字家庭虽处于起步阶段,但发展速度非常快。现阶段数