云环境下大数据迭代计算研究

被引量 : 6次 | 上传用户:godwin82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,高速发展的计算机存储和网络技术产生了海量数据和大数据,云计算的兴起也为大数据的存储和计算提供了理想平台。分析这些数据可以更好地帮助人们了解用户行为和制定商业决策,而数据挖掘、机器学习、应用统计等数据分析技术通常包含迭代计算过程。对海量数据进行数次迭代计算是一个极其耗时的过程,并且将消耗大量云资源。加速大数据迭代计算的收敛速度,缩短运行时间,是当今云计算领域的研究热点,对现实生产有着重要意义。Google提出的MapReduce模型在批处理计算方面优势明显,而在处理迭代计算方面存在诸多不足。近年来不断有专门支持迭代处理的分布式计算框架出现,从优化系统和改进计算模型两个方面提高大数据迭代计算的性能。本文区别于这些已有工作,改进现有的MapReduce模型,并在迭代计算理论方面做出了创新。论文取得的主要研究成果总结如下:(1) iMapReduce:为了实现迭代计算,MapReduce模型需要处理一系列MapReduce作业,其中每次迭代对应一个或若干个MapReduce作业。这种批处理模型导致了反复多次的作业调度和数据加载开销,限制了MapReduce迭代处理的性能。本文针对MapReduce在迭代处理方面的不足,提出了一种基于MapReduce模型的迭代处理框架——iMapReduce。它只建立一个作业来避免反复作业调度的开销,维护本地静态数据来避免反复加载传输静态数据的开销,并在一次迭代内允许异步执行Map任务。通过这些对迭代处理系统优化,iMapReduce可以有效提升大数据迭代计算性能。Amazon EC2上的大规模实验显示,iMapReduce相比Hadoop (MapReduce模型的开源实现)在处理迭代计算方面可以减少高达5倍的运行时间。(2) PrIter:通过对大量迭代算法的研究,本文发现了可以提高迭代算法收敛速度的优先级处理技术。现有迭代计算不加区别地对所有数据单元执行迭代更新计算,而在实际中,广泛存在的数据幂率分布决定了这些数据存在较大差异。某些数据单元具有较强的代表性,对迭代计算收敛起着更重要的作用。利用这个特点,可以对数据单元加以区分,对那些对算法收敛作用更大的数据单元执行更频繁的更新计算,而忽略那些无关紧要的数据单元。本文从理论上证明了优先级迭代的正确性和收敛性,并设计实现了支持优先级迭代的分布式框架——PrIter。大规模实验结果显示PrIter可以加速Hadoop处理效率高达50倍,与iMapReduce相比也能得到5至10倍的性能提升。(3) Maiter:迭代计算模型中普遍采用的同步计算模式要求所有计算节点完成本次迭代的任务之后才可以开始下一次迭代,这要求首先完成分配任务的计算节点要等待未完成任务的节点。这在很大程度上限制了分布式系统的处理能力,尤其是在计算节点之间性能差异较大的分布式环境中。为了支持异步迭代,本文从理论上推导出累加迭代方法,并证明了异步累加迭代计算的正确性和收敛性,用抽象代数描述了异步累加迭代的计算模型,并基于此抽象模型设计实现了支持异步累加迭代的分布式框架——Maiter。大规模实验结果显示异步累加迭代模型相比较于同步模型可以获得5至10倍的性能提升,同时比Hadoop中的迭代计算快达80倍左右。上述成果的取得,大大提高了迭代计算在云环境下的收敛速度,减少了运行时间。本文部分研究成果已经被美国麻州大学(UMass Amherst)的图片搜索系统Million Book、卡内基梅隆大学(CMU)的机器学习项目GraphLab、微软研究院(Microsoft Research)的Daytona项目所采用。另外,为了有助于云环境下迭代计算的研究与应用,本文同时提供了iMapReduce、Pilter和Maiter三个分布式框架的源码下载。
其他文献
数控拉刀磨床的砂轮修整技术是成型磨削加工中一个非常复杂,难度很高的技术。目前工程实际中主要采用的根据离线测量工件得到的测量结果来控制砂轮修整的方法,存在着磨削加工
20世纪90年代以来乡镇"七站八所"人员臃肿、机构瘫痪、职能不清等现实困境促使一些地方进行了探索性改革。其中,湖北推行的"以钱养事"改革最有独特性,也颇有争议。这场改革解决了
本研究对1990-2007年我院确诊的9例脉络膜血管瘤和6例脉络黑色素瘤的B超、磁共振成像(MRI)和脉络膜吲青绿血管造影(ICGA)的特点,结合有关文献分析脉络膜血管瘤和脉络膜黑色素瘤的
因"难奈凄凉"而丧志失节,不得不摇尾乞怜,谄媚求生,这便是应伯爵的人生轨迹.应伯爵习惯于以帮闲的方式活着,却很难说是心甘情愿的,表面的媚笑与内心的苦楚交织在一起.他是一
目的了解上海市部分医院护士长群体的情绪智力状况及其影响因素。方法采用自陈式情绪智力量表(Wong andLaw emotional intelligence scale,WLEIS)对上海市部分医院的440名护士
我国是世界上最大的家电生产国和消费国,每年都有大量的电视机和电脑需要报废,产生大量废旧含铅电子玻璃,含铅电子玻璃中铅含量高,将对人体健康和生态环境构成严重危害。另一
纵观黄金价格与原油价格的历史走势,发现二者同向运动的趋势很明显,但有些时候也会出现背道而驰的局面。本文收集了1971年1月~2010年4月的黄金价格和原油价格的月度数据,运用
目的:通过系统评价分析中医药治疗PIC疗效及安全性,并通过观察加味止嗽散治疗感染后咳嗽(PIC)的临床疗效,探讨其中医发病机制,并寻求更有效的治疗PIC的手段。方法:收集2014年1
文章将空气源热泵应用于开水机中并制作了试验机组进行相关试验。研究结果表明:水容量为120L的水箱,使用制热量为3235W、制冷剂为ZHR02的热泵机组,冬季机组制备55℃的热水、其他
现代科学技术日新月异,应用于教学领域的信息技术手段亦是层出不求。现代教育技术的发展极大地扩展了音乐教学的容量,丰富了教学手段和教学资源,在音乐教育中有着广阔的应用