云环境下基于分布式计算平台的交通大数据高效查询研究

来源 :企业文化·下旬刊 | 被引量 : 0次 | 上传用户:FollowMyHeart88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着时代的发展与信息技术的广泛应用。现如今,数据的爆炸式增长已经成为热点问题。尤其是在交通领域内,研究的深入必然产生海量的数据信息,同时也带来了数据存储了数据查询方面的难题。云平台的产生和应用为海量数据的存储和查询提供了一种新的有效方法。本文以交通大数据为研究对象,主要探讨了基于分布式数据库HBase的大数据查询策略。本文的研究为交通大数据的高效查询研究提供了一種新的思路。
  关键词:云环境;分布式计算;大数据查询;HBase
  一、综述
  随着大数据时代的到来,给对应的应用领域带来了一系列的挑战。如数据的存储方式和数据的实时访问等。大数据的存储和高效查询成为了研究热点。传统的关系型数据库难以满足海量数据的存储和实时查询的要求。Hadoop云平台具有并行性,高可靠性和可扩展性的优势因而得到研究人员的广泛关注。HBase作为一种分布式数据库使海量数据的存储和高效访问提供了可能。
  二、关键技术介绍
  (一)Hadoop
  在Hadoop平台上,HDFS作为数据存储的文件系统,MapReduce负责数据的并行计算。与传统的关系型数据库相比,Hadoop具有扩展性更强,数据处理方式更加泛化,处理类型更加广泛的特点。对于海量数据来说,分布式计算平台Hadoop是代替传统的数据仓库的必然选择。
  (二)HBase
  HBase基于分布式平台的分布式数据库,与传统数据库相比,HBase是基于列存储,适合于结构化、非结构化数据存储的数据库,这一点与大数据具有的特点不谋而合,所以说,HBase适合存储数据的存储于处理。HBase将数据按照表、行和列进行存储。
  三、数据迁移与查询策略的研究
  (一)数据迁移
  通常,交通行业的相关数据收到业务的影响,目前都存储与传统的关系型数据库,如ORACLE等中。为了对海量的交通数据进行分析研究,就涉及到要将数据从传统数据库中导入到分布式数据库中,也就是所谓的数据迁移。目前可通过相应的工具,如Sqoop或importTsv等完成数据的迁移过程。数据迁移中,首先要在HBase中设计好对应的表结构,因为HBase中,RowKey是表中每条记录的“主键”,能够实现对某条数据的快速定位,Rowkey的设计非常重要。Colunm Familv代表列族,包含一个或者多个相关列。所以在进行数据迁移前,要完成RowKey和Column Family的设计。
  (二)索引的建立
  HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方案,基于Sok的HBase多条件查询原理是将HBase表中涉及条件过滤的字段和rowkey在Sok中建立索引,通过Sok的多条件查询快速获得符合过滤条件的rowkey值,拿到这些rowkey之后在HBase中通过指定rowkey进行查询。
  (三)实验与分析
  本集群选择8台物理机搭建,硬件配置为4G内存,80G硬盘容量,集群内部通过SSH连通。软件配置为LinuxCentOS操作系统,Hadoop2.6.0,Hbase2.7.3,hivel.2.1,对应的还有sqoop负责数据迁移,Sok负责索引的建立。实验数据来自高速公路收费系统中近三个月的绿色通道数据。数据总量约100万条,500G。
  实验步骤:
  1设计HBASE表结构,确定RowKey和ColunmFamily中包含的元组。
  2利用Sqoop将数据从ORACLE中迁移到HBASE中。
  3利用Sok为所要查询的数据属性建立相应索引。
  4按照数据量由小到大的顺序,分四次进行查询效率对比实验。
  图1展示了未建立索引和建立索引的数据查询时间对比。
  通过上图的展示表明,若未对存储的HBase中的数据设计索引,则进行数据查询时,查询的时间与数据量大小无关,耗时在5000秒左右。当利用Sok对存储在HBase中的数据设计索引后,能够大幅度的降低数据的查询时间。当数据量在100万条时,花费的查询时间耗时为8分钟左右。通过对比可以看出,建立索引能够减少数据查询时间,提高查询效率,满足对交通大数据实时查询的要求。
  四、总结
  本文是云平台Hadoop框架上,基于分布式数据库Hbase的海量数据的存储和查询。主要从数据迁移,索引的建立和通过相关的实验对比来展示云环境下,分布式数据库对海量数据存储和查询的优势。本文根据实际研究内容,对高速公路特色车辆进行查询,通过对实验展示了建立索引对非主键数据的查询效率的提升。放眼大数据行业,在未来的研究中,针对Hadoop和HBase的优化研究将会继续进行,这样才能进一步提高数据的查询效率,使云技术更好的服务于大数据行业。
其他文献
党的十九大和习近平新时代中国特色社会主义思想,为我们诠释了马克思主义真理的光芒,让当代大学生更加认识到学习研究宣传马克思主义理论的重要性.大学生是祖国未来的建设者
本文通过对荣华二采区10
期刊
摘 要:酒店业人才队伍稳定性是酒店持续发展的人才资源的保证。强化人才队伍管理机制的建设,是酒店业战略管理的重要任务。通辽市酒店业通过规范选聘人才的新机制,突出人才培养的新机制,创新人才管理的新机制,探索建立起本土化、民族化、现代化的人才管理机制,提高了酒店业人才稳定性,促进了酒店业的健康发展。  关键词:酒店业;人才队伍;稳定性;管理机制  通辽市地处东北松辽平原的南端,东接东北经济圈,南联华北经
我们知道,胎儿在母体内是可以感受到母亲的举动和言行的。孕妇在怀孕期间的所作所为都可以直接影响到胎儿出生后的性格、习惯、道德水平、智力等各个方面。从目前的研究结果
摘要:在建筑施工过程当中,机电安装是其中一项重要的内容,也是建筑工程当中最重要的一个部分,对整体的工程质量有着相当大的影响。随着现代社会经济的不断发展,需要对机电安装进行不断的改进,其中给排水的问题就是其中一项,提升建筑工程的整体质量,保证人民的生命财产安全。本文针对市政建筑工程当中的机电安装的给排水常见问题进行了分析,并且提出了其针对性的措施。  关键词:机电安装;给排水;常见问题  随着现代城
摘 要:事业单位与企业单位相对应,其差异在于事业单位不以盈利为目的,是国家机构分支,为广大人民带来生活便利。事业单位从事员工数量较多,其中一些单位人事变动较为频繁,更需要其人事档案部门做好管理工作,避免人事纠纷,提高单位办公效率。基于此,本文将浅谈优化人事档案管理制度的几点建议。  关键词:优化;人事档案管理;事业单位  在我国不断加强发展期间,各单位也推陈出新不断优化其自身管理制度。以人为本,改
熟悉中医中药的人都知道,金老是国家科技部国家秘密技术中医中药审查专家,国家中医药管理局科技成果评审专家,国家药监局基本药物评审专家,国家级非物质文化遗产“中药炮制技
如果你稍加留心,便会发现戴眼镜的小朋友比从前明显增多了.小小年纪视力不济,许多人将其归咎于父母的遗传或孩子看书学习姿势不正确.可是,最近一位光学权威专家提出了新的观