论文部分内容阅读
分析人口数据情况是科学决策的重要基础工作,人口数据是制定各项政策的依据和前提。当前人口统计不能满足人口管理、提高公共服务质量和水平的需要。城市现有的人口数据库已经遇到瓶颈,存在数据字段不全、缺乏有效验证机制的问题。随着时间的推移和业务的发展以及大数据时代的到来,需要交换的数据量和频率都会增大,无法满足日益增长的业务需求。因此,需要通过大数据存储、计算、分析、挖掘等技术,建立一套人口数据分析平台,解决上述问题。实时记录人口的属性特征、结构特点和变化规律是巨大的系统工程,现在的人口数据已成为大数据,建设人口数据分析平台需要运用大数据技术。本文研究的人口数据分析平台旨在运用大数据技术,实现各类基础数据、管理数据、运营数据的集中定义、集中存贮和集中使用。对于更新比较频繁的数据,使用Spark技术进行快速计算和分析,对于更新不是太频繁的数据,用Hadoop技术来进行数据计算和分析,Hadoop集群本身采用Zookeeper技术进行作业的协调和调度。人口数据分析平台功能上包括实现各类数据按照收集、准备、建模、结果、展现、归档的增值过程分级进行存储,以及实现以上功能所需的管理应用环境和技术支撑框架。平台主要为上层应用系统提供全局统一的数据综合利用及管理环境,为各类具体应用(应用子系统或子模块)提供统一的数据存储、加载、查询、分析以及展现的平台框架。