面向大数据分析的跨平台流式数据迁移系统研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:slzj118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各个行业数据量爆炸式的增长,信息技术已进入大数据时代。由于大数据分析应用问题种类繁多,大数据计算模式呈现出多样化的特点,包括数据转换、查询分析、机器学习、图计算等。同时,现实世界中一个复杂的行业大数据分析应用具有综合性计算的特点,需要同时混合使用多种计算模式。然而,没有任何一个大数据计算平台能够很好地支持所有的计算模式,每个大数据计算平台具有各自的适用场景以及适用计算模式。因此,为了满足综合性大数据分析应用的需求,往往需要在同一个分析应用中混合使用多个不同的大数据计算平台,从而实现跨平台的数据分析。近年来,跨平台的数据分析得到了越来越多的关注,与此同时,实现高效的跨平台数据迁移也成为了亟待解决的问题。一方面,为了实现跨平台数据迁移的高效性,数据迁移系统需要支持统一数据交换格式和流式数据迁移。另一方面,为了能够高效地支持大数据分布式并行计算,数据迁移系统也应当采用分布式架构设计,并支持分布式并行计算场景下的负载均衡和数据容错。然而,现有的数据迁移工作还不能完全满足这些要求。针对上述应用需求和问题背景,本文研究设计了面向大数据分析的跨平台分布式的流式数据迁移系统Crossroad,能够同时满足上述的数据迁移要求。本文的主要研究工作和贡献点如下:(1)在分析数据交换格式对跨平台数据迁移性能影响的基础上,研究使用高效的统一数据交换格式,降低跨平台迁移时的数据格式转换开销。(2)研究提出一种基于文件队列的流式数据迁移方法,该方法可以以流水线的方式同时实现数据导出和导入,不仅提高了数据迁移效率,同时也解决了数据容错的问题。(3)研究解决分布式场景下实现流式数据迁移面临的基本问题,包括实现数据流高效转发的路由机制、支持负载均衡的数据shuffle机制以及文件队列中Batch的动态调整机制。(4)在上述关键技术研究基础上,设计实现跨平台流式数据迁移原型系统Crossroad。Crossroad使用主从式的分布式架构以支撑分布式场景下的数据迁移。实验结果表明,Crossroad能够有效降低跨平台数据迁移的时间开销,显著提高大数据混合分析计算的效率。
其他文献
以“健康中国”建设的目的与基本特征为基础,充分借鉴国外内相关领域战略规划监测评估经验,初步建立了“健康中国”监测评估逻辑模型。在此基础上,以《“健康中国2030”规划
电力行业是中国二氧化碳排放的主力军。深入研究电力行业碳排放的产业链,有利于针对性地制定减排政策,提高减排效率,对发展低碳经济和实现减排目标有重要意义。本文基于2012
截至2019年6月,我国的网民总量已经达到了8.54亿,互联网普及率已经达到61.2%。互联网的大规模普及和应用,给人们的生活和工作带来了极大的便利。在当今社会,人们可以足不出户
当前,我国老龄化程度不断加深,老龄人口的较快增长,社会呈现出对养老护理人员的迫切需求。在养老机构从事护理的工作人员,需要长时间照顾老年人,这就使得护理人员在工作中容易与老年人产生矛盾。养老护理人员在服务的过程中受到来自老年人的责骂和身体上的伤害行为事件以较快速度增长,使得护理人员的生活满意度严重降低同时对护理人员服务过程的质量造成影响,对护理人员的情绪、满意度以及服务质量造成严重破坏。因此,研究服
1999年,《社会保险费征缴暂行条例》的出台,正式通过行政法规的形式确立了社会保险费征收双主体制,并再次明确规定社会保险的征收机构决定权在省级人民政府。2018年7月20日,《国税地税征管体制改革方案》确定自2019年1月1日起,将基本养老保险费、基本医疗保险费、失业保险费、工伤保险费、生育保险费等各项社会保险费交由税务部门统一征收。2019年3月,国务院出台“双降”政策,基本养老保险单位缴费比例
随着社会经济的发展,生命质量的提高,人口寿命也在不断地延长,人口老龄化化、失能化形式日渐严峻。长期护理服务作为应对这些问题的重要举措,越来越受到重视。长期护理服务给予了失能老人基础的保障,提高了失能老人的生命质量,促进了家庭代际的良性互动,缓解了家庭经济负担。2016年,全国确定了15个长期护理保险制度试点城市,当下长期护理服务体系在国家倡导下提上重要议程,期望建立服务全国的长期护理服务体系。论文