论文部分内容阅读
随着信息技术和对地观测技术的不断发展,空间数据呈指数级爆炸性增长,地理信息服务日益成为人们日常生活的必须。空间数据管理是地理信息服务的核心,其性能的优劣直接影响地理信息服务的能力。目前基于传统空间数据库的空间数据管理方法由于存储与计算能力有限,制约海量空间数据快速访问和处理能力。而现有的基于云计算HDFS与MapReduce相结合的方法由于磁盘I/O效率较低,无法满足地理信息服务中高并发用户对大规模空间数据的实时处理需求。因此,迫切需要一种新型的空间数据管理方法,来解决在大数据量和高并发用户背景下空间数据管理的瓶颈问题。 本文结合空间数据与地理信息服务的特性,基于Spark分布式内存计算框架,从空间数据存储模型、索引技术、查询算法等三个方面展开研究,探索性解决了基于Spark的海量空间数据实时查询分析的关键技术,取得如下贡献: (1)提出并设计了基于HBase的空间大数据存储组织模型。根据HBase存储模型与矢量空间数据特点,设计了矢量空间数据HBase存储模型,包括基于Geohash的行健和空间数据与属性数据分开存放的列族。依靠HBase集群分布式处理能力,保证高可靠、高并发、低延迟访问矢量空间数据。实现了基于HBase的矢量空间数据导入算法,实验验证了模型和算法的正确性。 (2)设计并实现了一种分布式空间索引机制。针对空间查询特性与HBase存储模型特点,设计基于Spark并行构建网格索引和GeoHash-Rowkey索引,其中,前者可提高建立网格索引的效率,后者可充分利用HBase行健扫描的高效性,索引更加灵活。通过空间索引机制,有效加速了空间数据随机查询处理性能。 (3)实现了基于Spark分布式内存计算框架的空间查询算法。根据空间查询特性和Spark分布式内存计算模型,设计结合HBase分布式存储、分布式空间索引、Spark分布式内存计算框架的空间区域查询算法和K最近邻空间查询算法。并且设计基于流实时计算框架Spark Streaming的空间查询算法,提供实时在线空间查询服务。实验表明,基于Spark并行空间查询算法可以提供海量空间数据的实时空间查询服务。 (4)设计并实现了基于Spark的海量空间数据实时查询分析原型系统。结合HBase存储模型、GeoHash-Rowkey索引机制、基于Spark的并行空间查询算法设计海量空间数据实时在线服务原型系统,包括数据导入、实时索引与实时空间查询服务,能够有效支撑具有高并发用户和大数据量的交互式空间查询应用。Spark