论文部分内容阅读
摘 要:随着我国经济和科技的不断发展,电信运营商的数据平台构建还存在着很大的缺陷,传统的技术手段已经无法适应社会发展的新要求,数据的整合难度和分类标准也愈加严格。针对这样的现象,很多企业在大型数据仓库创建的过程中都坚持应用了新技术,计算机也实现了进一步的应用,但是很多弊端仍旧无法避免。对此,采用最新的云计算措施来构建大型数据仓库平台就成为了大势所趋。本文就结合企业目前构建大型数据仓库平台的现状,简单分析一下其所面临的主要技术问题,进而结合云计算技术进行创新,提出行之有效的运用对策,发挥新技术的巨大优势,为我国大型数据仓库平台的云计算应用奠定坚实的基础。
关键词:云计算技术;大型数据仓库平台;现状;优势;对策
中图分类号:TP311.13
现如今,社会科技日益发展,世界大市场逐步开放,企业想要掌握更多的数据,在竞争中立于不败之地,了解运营的基本情况,就一定要坚持数据仓库平台的创建和创新。原有的数据平台在信息查询和处理的时候还存在很大的缺陷,无法对具体数据进行准确分析,在很大程度上阻碍了企业的进一步发展。与此同时,新技术在大型数据仓库平台上的应用也关乎着企业的整体水平,是衡量企业技术能力的重要指标。因此,坚持采用云计算技术构建大型数据仓库平台是企业和运营商所要走的必然道路。
1 大型数据仓库建设的现状
进入21世纪以来,市场经济逐步完善,企业之间的竞争日益加剧,电信运营商想要不被社会所淘汰,就一定要全面掌握企业的生产状况,了解运营成本,对具体数据能够准确给予分析。数年前,数据分析系统还称之为经营分析系统的时候就被应用于电信运营商中,它主要是对企业的业务情况进行综合分析,然后通过一系列的加工处理,再将其制作成数据报表形式。随着近年来经济的飞速发展以及分析数据的多元化,就使得企业所承载的业务功能更加复杂,传统的数据仓库建设已经无法满足精细业务的高要求,如何实现数据的准确分析,将数据收集、加工、处理等工作集合在一起已经成为了企业人员关注的焦点。
2 大型数据仓库平台中云计算技术的引入
由于云计算技术的发展,给很多企业提供了数据准确分析的能力,在电信运营商内部的信息化建设中也相应的引入了新技术,满足了资源的池化要求,形成了私有云平台。在此基础上,根据电信运营商对数据准确性和精细度的要求,引入×86分布式集群的MPP(大规模并行处理)架构,能够很好的解决上述问题,保证企业的进一步发展。
2.1 对比SMP与MPP架构
SMP是比较传统的架构模式,指的是在一台计算机上集聚了一组处理器和多个CPU,且各CPU之间能够实现内存的共享。虽然其中具有多个CPU,但是它们仍然和一台计算机一样,每个处理器都可以对内存进行访问。在许多松耦合处理单元的共同组成下则形成了MPP系统,这种系统中的CPU都有自身的私有总线、硬盘、内存等设备,其中的×86分布式集群就是典型代表。
SMP相对于MPP来说存在着很多不足,其扩展相对有限,并且在扩展的过程中需要大量资金。而MPP系统则不会对资源进行共享,资源总数却相对来说多一些,在处理能力上也比较突出。所以,在具体的应用过程中大多采用MPP系统,它的运行速度和效率都要快一些,在OLAP大数据分析上也具有更高的优势,更加有利于系统性能的充分发挥。
2.2 云计算数据仓库
在上述文章中已经分析得出了MPP系统的优点,所以在技术应用中也要配合与之相适应的技术路线,具体来说主要有两种。第一,软硬化一体化路线。它其中主要有IBM一体机Netezza、Teradata一体机等设施,它具有很高的性能,能够优化硬件,但是研发费用也相对较高;第二,软件数据库管理系统产品。这其中主要有EMC Greenplum、Hadoop以及IBM DB2系统下的HIVE或者HBASE工具设备,它可以采用比较常见的硬件产品来予以组建,没有具体的硬性要求。
2.3 MPP云化数据仓库的基本系统
这种系统主要有三个层面共同构成,其建设方案也相对比较复杂。第一,MPP能力层。它的构成相对复杂,至少有多于2个的高性能×86分布式集群主机构成,主要实施管理职能,能够实现对数据节点的任务调度,并提供计算能力池和存储能力池。另外,它还是多台×86存储服务器组成的数据节点集群,网络通信平台由多台高性能局域网交换机共同构成;第二,云计算数据库管理层面。它不仅具有普遍使用的关系型数据库的管理功能,而且对外支持SQL标准语言,能够对底层数据进行分布式管理,承载调动功能,分担底层节点设备的负载量;第三,应用层面。顾名思义,它是最具有实用功能的层面,能够根据具体情况进行应用分析,具备KPI、多维分析、报表构成等多种基础功能
2.4 比对业务数据加载验证
POC(验证试验)是确保云计算数据方案是否达到标准的主要测量手段,它能够准确分析出时间的消耗情况和运行处理的效率,并且在此基础上与传统的方法进行比对,从而分析出结果,保证硬件配置的最優化。
3 云计算技术构建大型数据仓库平台的优点
3.1 在大型数据仓库中应用云计算技术能够根据固定的对策对每个MPP节点上的业务数据进行公平合理的分布,最大限度的发挥每个部分的功效,使得系统的I/O能力不再受少数主机运行情况的限制,保证它与数据节点的数量成正比发展趋势,解决其所面临的瓶颈。在数据的需求量变大的时候,只要经过对节点的调动,就可以使其进行延展。在系统相对不拥挤的时侯,还能够自动进行节点的分布,保证过程的连续性,实现系统的即刻扩展。
3.2 在大型数据仓库中应用云计算技术能够进一步节省I/O的操作环节,通过列存储技术可以对传统数据库中的行数据进行整合加工,实现聚合存储,大大节约了运算时间,并提高了大数据频繁访问的性能,在为硬件资源带来效益的同时还适应了OLAP的应用功能。
3.3 在大型数据仓库中应用云计算技术,能够保证网络宽带在各节点之间充裕的情况下,实现数据处理能力的提升,具有很高的扩展性能。据准确数据显示,主要的云计算数据库支持下的MPP架构可以达到一千个节点以上的扩展规模,数据的存储能力也超出了50PB,对各类业务数据的加工存储时间都有了提升。另外,这种新技术支持所有的SQL语法,是隐藏在MPP之下的细节内容,在使用者运行的过程中不用转换语言,节省了时间。
3.4 在大型数据仓库中应用云计算技术能够通过各计算节点的同构和互换措施提高服务的稳定性,采取数据多副本容错机制也可以减少错误发生的几率,一旦某个节点出现问题,也不会影响这个系统,只是其性能会有所降低。因此,MPP里面的节点越多,其性能下降的指数就越小,容错能力也就越强。
4 云计算技术的应用未来
从上述内容中,我们已经清晰直观的看到了采用云计算技术构建大型数据仓库平台的巨大作用,随着企业资金投入数量的增多以及基础设施系统能力的提高,其应用范围一定会更加宽广,为云计算平台提供物质前提。参看国外的成功经验和经典例子,也可以发现其中的关键所在。云计算平台很重要的一点优势就在于能够进行快速伸缩,实现弹性化管理,而这一点又恰巧符合大规模节点设备提出的高要求,所以对其进行进一步应用并不断发现新特点、开发新技术也就成为了大势所趋。
参考文献:
[1]马又良.采用云计算技术构建大型数据仓库平台的探讨[J].邮电设计技术,2012(7):271-18.
[2]何华.基于云计算平台的电信经营分析系统中元数据管理的研究与实现[D].2011:93-41.
作者简介:桑子华(1971-),男,湖南长沙人,厦门大学硕士,副教授,研究方向:信息技术,云计算机相关数据处理等;李杰平(1971-),男,湖南澧县人,湖南财院硕士,讲师,研究方向:审计,财务会计等;姚跃(1975-),男,湖南望城人,湖南师大硕士,副教授,研究方向:信息技术,数值分析,数据处理等。
作者单位:湖南长沙职业技术学院,长沙 410217
关键词:云计算技术;大型数据仓库平台;现状;优势;对策
中图分类号:TP311.13
现如今,社会科技日益发展,世界大市场逐步开放,企业想要掌握更多的数据,在竞争中立于不败之地,了解运营的基本情况,就一定要坚持数据仓库平台的创建和创新。原有的数据平台在信息查询和处理的时候还存在很大的缺陷,无法对具体数据进行准确分析,在很大程度上阻碍了企业的进一步发展。与此同时,新技术在大型数据仓库平台上的应用也关乎着企业的整体水平,是衡量企业技术能力的重要指标。因此,坚持采用云计算技术构建大型数据仓库平台是企业和运营商所要走的必然道路。
1 大型数据仓库建设的现状
进入21世纪以来,市场经济逐步完善,企业之间的竞争日益加剧,电信运营商想要不被社会所淘汰,就一定要全面掌握企业的生产状况,了解运营成本,对具体数据能够准确给予分析。数年前,数据分析系统还称之为经营分析系统的时候就被应用于电信运营商中,它主要是对企业的业务情况进行综合分析,然后通过一系列的加工处理,再将其制作成数据报表形式。随着近年来经济的飞速发展以及分析数据的多元化,就使得企业所承载的业务功能更加复杂,传统的数据仓库建设已经无法满足精细业务的高要求,如何实现数据的准确分析,将数据收集、加工、处理等工作集合在一起已经成为了企业人员关注的焦点。
2 大型数据仓库平台中云计算技术的引入
由于云计算技术的发展,给很多企业提供了数据准确分析的能力,在电信运营商内部的信息化建设中也相应的引入了新技术,满足了资源的池化要求,形成了私有云平台。在此基础上,根据电信运营商对数据准确性和精细度的要求,引入×86分布式集群的MPP(大规模并行处理)架构,能够很好的解决上述问题,保证企业的进一步发展。
2.1 对比SMP与MPP架构
SMP是比较传统的架构模式,指的是在一台计算机上集聚了一组处理器和多个CPU,且各CPU之间能够实现内存的共享。虽然其中具有多个CPU,但是它们仍然和一台计算机一样,每个处理器都可以对内存进行访问。在许多松耦合处理单元的共同组成下则形成了MPP系统,这种系统中的CPU都有自身的私有总线、硬盘、内存等设备,其中的×86分布式集群就是典型代表。
SMP相对于MPP来说存在着很多不足,其扩展相对有限,并且在扩展的过程中需要大量资金。而MPP系统则不会对资源进行共享,资源总数却相对来说多一些,在处理能力上也比较突出。所以,在具体的应用过程中大多采用MPP系统,它的运行速度和效率都要快一些,在OLAP大数据分析上也具有更高的优势,更加有利于系统性能的充分发挥。
2.2 云计算数据仓库
在上述文章中已经分析得出了MPP系统的优点,所以在技术应用中也要配合与之相适应的技术路线,具体来说主要有两种。第一,软硬化一体化路线。它其中主要有IBM一体机Netezza、Teradata一体机等设施,它具有很高的性能,能够优化硬件,但是研发费用也相对较高;第二,软件数据库管理系统产品。这其中主要有EMC Greenplum、Hadoop以及IBM DB2系统下的HIVE或者HBASE工具设备,它可以采用比较常见的硬件产品来予以组建,没有具体的硬性要求。
2.3 MPP云化数据仓库的基本系统
这种系统主要有三个层面共同构成,其建设方案也相对比较复杂。第一,MPP能力层。它的构成相对复杂,至少有多于2个的高性能×86分布式集群主机构成,主要实施管理职能,能够实现对数据节点的任务调度,并提供计算能力池和存储能力池。另外,它还是多台×86存储服务器组成的数据节点集群,网络通信平台由多台高性能局域网交换机共同构成;第二,云计算数据库管理层面。它不仅具有普遍使用的关系型数据库的管理功能,而且对外支持SQL标准语言,能够对底层数据进行分布式管理,承载调动功能,分担底层节点设备的负载量;第三,应用层面。顾名思义,它是最具有实用功能的层面,能够根据具体情况进行应用分析,具备KPI、多维分析、报表构成等多种基础功能
2.4 比对业务数据加载验证
POC(验证试验)是确保云计算数据方案是否达到标准的主要测量手段,它能够准确分析出时间的消耗情况和运行处理的效率,并且在此基础上与传统的方法进行比对,从而分析出结果,保证硬件配置的最優化。
3 云计算技术构建大型数据仓库平台的优点
3.1 在大型数据仓库中应用云计算技术能够根据固定的对策对每个MPP节点上的业务数据进行公平合理的分布,最大限度的发挥每个部分的功效,使得系统的I/O能力不再受少数主机运行情况的限制,保证它与数据节点的数量成正比发展趋势,解决其所面临的瓶颈。在数据的需求量变大的时候,只要经过对节点的调动,就可以使其进行延展。在系统相对不拥挤的时侯,还能够自动进行节点的分布,保证过程的连续性,实现系统的即刻扩展。
3.2 在大型数据仓库中应用云计算技术能够进一步节省I/O的操作环节,通过列存储技术可以对传统数据库中的行数据进行整合加工,实现聚合存储,大大节约了运算时间,并提高了大数据频繁访问的性能,在为硬件资源带来效益的同时还适应了OLAP的应用功能。
3.3 在大型数据仓库中应用云计算技术,能够保证网络宽带在各节点之间充裕的情况下,实现数据处理能力的提升,具有很高的扩展性能。据准确数据显示,主要的云计算数据库支持下的MPP架构可以达到一千个节点以上的扩展规模,数据的存储能力也超出了50PB,对各类业务数据的加工存储时间都有了提升。另外,这种新技术支持所有的SQL语法,是隐藏在MPP之下的细节内容,在使用者运行的过程中不用转换语言,节省了时间。
3.4 在大型数据仓库中应用云计算技术能够通过各计算节点的同构和互换措施提高服务的稳定性,采取数据多副本容错机制也可以减少错误发生的几率,一旦某个节点出现问题,也不会影响这个系统,只是其性能会有所降低。因此,MPP里面的节点越多,其性能下降的指数就越小,容错能力也就越强。
4 云计算技术的应用未来
从上述内容中,我们已经清晰直观的看到了采用云计算技术构建大型数据仓库平台的巨大作用,随着企业资金投入数量的增多以及基础设施系统能力的提高,其应用范围一定会更加宽广,为云计算平台提供物质前提。参看国外的成功经验和经典例子,也可以发现其中的关键所在。云计算平台很重要的一点优势就在于能够进行快速伸缩,实现弹性化管理,而这一点又恰巧符合大规模节点设备提出的高要求,所以对其进行进一步应用并不断发现新特点、开发新技术也就成为了大势所趋。
参考文献:
[1]马又良.采用云计算技术构建大型数据仓库平台的探讨[J].邮电设计技术,2012(7):271-18.
[2]何华.基于云计算平台的电信经营分析系统中元数据管理的研究与实现[D].2011:93-41.
作者简介:桑子华(1971-),男,湖南长沙人,厦门大学硕士,副教授,研究方向:信息技术,云计算机相关数据处理等;李杰平(1971-),男,湖南澧县人,湖南财院硕士,讲师,研究方向:审计,财务会计等;姚跃(1975-),男,湖南望城人,湖南师大硕士,副教授,研究方向:信息技术,数值分析,数据处理等。
作者单位:湖南长沙职业技术学院,长沙 410217