论文部分内容阅读
现代社会的信息呈爆炸式增长,在大数据的背景下,近些年来快速发展的云计算凭借其海量的数据处理能力和高效率的计算能力,得到了IT界的广泛关注。目前在IT界使用最多也是最广泛的就是Hadoop以及Spark分布式集群,Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)成本低,拥有高可靠性和可扩展性,非常适合海量数据的存储;Spark则是基于内存计算,整合机器学习、流处理、图计算和数据分析等功能,为大规模数据处理提供了一站式的解决方案。同时空间数据获取技术的不断更新,DEM数据量呈指数增长,基于数字高程模型(Digital Elevation Model,DEM)的数字地形分析方法面临着新的机遇和挑战,对数字地形分析并行计算的需求日益迫切,数字地形分析的并行技术正逐渐成为数字地形分析新的发展方向。本文将数字地形分析与HDFS和Spark结合,对基于Spark的分布式环境的数字地形分析并行化算法进行了部分研究,主要研究内容如下:(1)分析国内外学者对并行数字地形分析的处理过程,包括并行数字地形分析的主要采用的数据划分方案、数据存储方案以及并行算法的研究;介绍包括数字地形分析概念以及Hadoop和Spark理论与背景,将并行数字地形分析算法分为局部以及全局数字地形分析并行算法两类,并分别选取代表性算法实施。选取山地分类算法作为代表性算法完成对局部数字地形分析并行算法的设计与实现,给出基于HDFS的瓦片划分与压缩存储的设计思路;完成对山地分类并行算法的设计与实现,对整个数据划分与存储以及并行化算法的性能进行了简要的分析与评估。(2)选取可视域分析算法作为代表性算法完成对全局数字地形分析并行算法的设计与实现。针对可视域分析的算法特点,借鉴了顾及负载均衡的DEM数据等栅格量划分方法完成数据划分;完成基于Spark的可视域分析的并行算法的设计与具体实现,对可视域分析并行算法的性能做简要的分析。(3)为山地分类并行算法和可视域分析并行算法设计对比实验。山地分类算法包括单机版本与并行版本的时间对比、是否采用压缩瓦片的划分方式的对比,可视域分析算法则包括了单机与并行版本的对比、可视域分析结果的精确性对比、不同计算节点个数计算时间对比。通过实验证明本文设计的分布式环境下数字地形分析并行算法的合理性和高效性。