Spark平台的性能优化与参数配置策略研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wshzzfdc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据时代来临,不同行业对数据信息资源的认知也在不断加深,如何更加快速准确地处理数据信息成为当今每个行业都需要面临的问题,因而出现了分布式大规模数据处理计算框架。但是Spark平台的配置参数指标众多,往往需要根据使用经验在特定的业务场景下进行手动配置修改。因此,使得其在被使用时往往不能达到最佳的平台性能。Spark平台的内存调度方式提供了 FIFO和FAIR这两种解决方案,然而并没考虑一些极端情况下因内存资源分配不当而出现内存溢出异常等问题,这将造成平台性能的下降和集群资源的浪费。针对上述的问题,本文研究分为两个部分:其一,深入研究并分析了 Spark平台的配置参数值对集群性能的影响,通过查阅相关文献并了解到利用黑盒原理配置参数值,通过研究机器学习中的算法模型理论,提出了基于lightGBM的Spark平台配置参数性能模型,该模型根据历史运行数据以及输入数据大小,自动选择对应的配置参数值使得平台性能达到能够适应不同业务场景的需求。深入剖析贝叶斯优化方法,使用贝叶斯优化建立的配置参数性能模型,使得建立的模型更具有高效性以适应更多的业务需求,进而使得模型性能达到最佳状态。对实验数据分析,证明本文建立的模型能够更好地配置参数值,提升集群性能和执行效率。其二,分析Spark平台的内存分配方式并发现当任务数据大小和数据类型不合理时,内存使用会出现溢出异常,提出了基于长短作业的内存优化策略。该策略由计算Task反馈权重、基于反馈权重的内存分配以及任务多级反馈调度方法三部分组成。通过以Task任务读写数据速度与时间分为长短作业,并依据Task在本地调度级别共同计算出Task的反馈权重以及优先级,先以反馈权重分配内存空间,然后使用调度策略执行Task。使用不均匀的长短作业数据证明了本文提出的内存优化策略更大程度上合理分配内存资源。
其他文献
住宅产业化,指用工业化生产的方式来建造住宅,是机械化程度不高和粗放式的生产方式升级换代的必然要求.也就是说,要实现生产工厂化、施工装配化、设计标准化、产品模数化、管
在2016年11月举办的第18届中国国际工业博览会上,埃斯顿自动化集中展示了多款智能装备核心功能部件、工业机器人及智能制造系统。展览会举办期间,2016“国际机器人检测认证高峰
天津市房地产发展(集团)股份有限公司(以下简称“天房发展”)是2(001年在上海证券交易所成功发行股票的首家天津市房地产行业上市公司。公司上市十余年来,一路高歌猛进,驶向良性发展
日前,合肥合锻机床股份有限公司自主研发的“汽车覆盖件液压机柔性冲压生产线”通过安徽省经济和信息化委员会和省财政厅组织的专家评审会评审,获得“安徽省首台(套)重大技术装备
近年来,随着我国社会经济的进步和高等教育事业的不断发展,导致我国高校资金管理需要不断的改进。在本文中,笔者对我国高校资金管理现状进行了详尽的分析,并进一步指出了我国高校
介绍了国内外机采棉清理加工技术发展状况,分析了引进机采棉清理加工工艺及国内机采棉清理加工工艺的不同点,针对兵团机采棉清理加工存在的问题,提出技术改造重点.
今年1月1日,国务院办公厅转发了国家发改委住房城乡建设部同有关部门共同编制的《绿色建筑行动方案》,其总体指导思想是紧紧抓住城镇化和新农村建设的重要战略机遇期,树立全
诚信问题令人堪忧党和国家十分重视社会信用体系的建设,国务院办公厅在2007年就出台了"关于社会信用体系建设的若干意见"。在闭幕不久党的十七届六中全会上又提出"把诚信建设摆
建设节约型社会是党中央、国务院结合我国国情和现代化建设实践做出的一项重大决策,节约型高校建设是节约型社会建设的重要组成部分.建设节约型高校的重大意义,提出了建设节