论文部分内容阅读
近年来,大数据与云计算产业获得了蓬勃发展,但大数据挖掘引擎还受限于其专业化的使用方式而产生了技能门槛,同时移动终端的普及使人们的工作环境不再固定。在集群常为多用户共享的情况下,单个任务常占用大量的计算资源,而多任务对同一数据进行挖掘将不可避免地产生重复运算,从而带来了调度灵活性不高、资源闲置、处理效率低等方面的问题,而现有的大数据挖掘引擎尚未对此进行优化,从而限制了大数据挖掘引擎的应用。针对以上问题,在不改变现有大数据挖掘引擎的基础上,本文设计并实现了一种面向大数据挖掘的多任务跨平台可视化作业工具,分析了大数据挖掘在多任务场景下的跨平台可视化需求与存在的问题,并给出了相应的解决方案。本文的主要研究工作归纳如下:(1)针对当前大数据挖掘引擎的易用性差的问题,设计并实现了跨平台可视化前端操作界面。实现了采用可视化工作流模型的数据挖掘工作台、分布式文件系统(Hadoop Distributed File System,HDFS)可视化管理组件以及Web-Shell远程命令行组件,为用户提供了灵活的操作方式及可视化支持,具有较强的跨平台特性,解决了当前大数据挖掘引擎的易用性差的问题。(2)针对当前大数据挖掘引擎在多任务场景下的任务调度灵活性差与资源利用率问题,提出并实现了任务拆分提交调度方案。通过对可视化建模生成的工作流进行拆分,使子任务的资源需求降低,从而提升任务调度的灵活性,解决了当前大数据挖掘引擎在多任务场景下任务调度灵活性问题与资源利用率问题。(3)针对当前大数据挖掘引擎在多任务场景下的重复运算问题,提出并实现了任务去重及弹性资源配置方案,通过中间结果复用与弹性资源配置有效提高任务处理效率,解决了当前大数据挖掘引擎在多任务场景下的重复运算问题。理论分析与实验对比表明,本文实现的面向大数据挖掘的多任务跨平台可视化作业工具在不改变当前大数据挖掘引擎的前提下,能够有效降低对用户的技能门槛,提供灵活的使用方式以及良好的用户体验,同时在多任务应用场景下有效提升了任务调度灵活性以及集群资源利用率与任务处理效率,弥补了现有大数据挖掘引擎的不足。