是谁革了传统BI的命?

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:moon818882003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  如果我们抛开传统BI复杂的原因是计算能力不足这一点不谈,单看传统BI和敏捷BI的区别,你会觉得没啥了不起,就是把架构简化了,去掉了一些环节而已。
  换句话说,看起来开发一个敏捷BI的工具也不难,不需要考虑建模等技术功能的话,跟开发一个前端展现的绘图工具似乎差不多。
  但如果事情就这么简单的话,那为什么传统BI的数据分析方式持续了这么多年?
  这时我们就会发现,计算能力这个话题是绕不开的。开发一个类似的前端工具确实很简单,但如果不突破性能,而且又采用了新架构,计算任务需要用户点击才开始执行,那换来的只能是一场灾难。用户会发现原先的传统BI虽然过程复杂耗时长久,但好歹计算完了看报表时还是很快的,现在打开报表居然要等几十分钟或几个小时,还能让人按时下班吗?
  所以,实现敏捷的BI有个必不可少的大前提,就是计算能力要有几十倍甚至几百倍的提升,才能让计算和交互完美完成。
  现在,让我们一探究竟,以永洪科技的敏捷BI产品(永洪BI)为例洞悉敏捷BI实现高性能计算的方法原理。
  列存储
  非技术人员都有个心理阴影,就是一看到技术名词潜意识里就觉得恐惧和排斥,认为技术高深莫测复杂至极,自己不可能搞懂。其实这些名词仅仅是一些名词而已,都可以用一句大白话说明,背后也没有多少不能理解的奥秘。造成这种阴影技术人员有责任,总是满口术语而不解释,认为听者理所应当像自己一样知道这些术语的含义,实际的结果就是造成沟通不畅。而正如前文所说,科技一定是朝着人性化的方向发展,因此,笔者认为非技术人员应该是作为评判技术的法官般存在,凡是不能让非技术人员理解其作用的技术都不是(或者现阶段不是)用户需要的技术。
  我们来聊聊敏捷BI涉及的第一个技术——列存储。列存储不是新概念,早在1985年SIGMOD会议上就有文章“A decomposition storage model”对DSM(decomposition storage model,列存储)做了比较详细的介绍。
  存储很容易理解,不管在屏幕上看到的是怎样花花绿绿的漂亮内容,其核心信息都是以文件块的形式存储在服务器的硬盘里的,当文件块里的内容被用到时,硬盘会通过磁头的I/O(Input/Output,输入/输出)把数据读出写入内存进行处理。
  有列存储,对应自然就有行存储,后者是更早产生的数据存储形式,应用也更广泛。行存储就是以行为单位进行存储的机制,可以简单理解为每一个文件块都是N行的数据,每一行包括了所有列。列存储是以列为单位进行存储的机制,每一个文件块都是一列的数据,这一列跨越了很多行。
  行存储和列存储在技术上没有好坏之分,只是基于各自的特点适用于不同的场景。而BI系统的数据库则是另一种场景,在BI系统里进行分析的通常都是已经确定了的历史数据,如果分析昨天的销售情况,结果昨天的销售数据还老频繁发生更改,那么分析的准确作用就丧失了。在数据分析的过程中,通常我们只需要某几列的数据,比如分析不同区域收入占比的情况,只需要用到“区域”和“收入”这两个字段,也就是两列,采用列存储,就可以很容易地只把这两列对应的文件块读出写入内存。但如果是行存储,则需要把所有用到的行里面所有的列都读出写入内存,并且绝大部分都是不需要的冗余列,性能上要差很多。更何况硬盘的I/O是整个硬件体系中最慢的一个环节。
  分布式计算
  下面我们再来谈一谈分布式计算。说分布式计算之前,先说向上扩展(Scale-up)和向外扩展(Scale-out,或者叫横向扩展)。
  当我们用一台电脑执行计算任务时,随着任务量加大,电脑计算出结果的速度也会变慢。这时我们有两种选择,第一种是买更好的电脑/服务器,或者升级服务器的配置,加CPU,加内存,等等。这种方法即为向上扩展。
  向上扩展短期能解决问题,但也存在着多种弊端。那就是向上扩展的效率会逐渐降低,向上扩展的代价十分昂贵,向上扩展的过程会影响系统的运行。因此,越来越多的人倾向于另一种选择——向外扩展。阿里的去IOE本质上也有类似的地方。
  与其把所有压力都推给孤零零的一台服务器,不如转而采用多台高性价比的服务器一起协同工作。这样,上述的三个弊端都得到了较完美的解决,扩展效率更高,代价很低,而且不用影响系统运行。
  分布式计算,实际上就是向外扩展的一种解决方案。通过分布式计算,系统能够把计算任务分布到多个计算节点,再在指定节点将计算结果汇总输出。比如想计算过去一年的总收入,假设我有三台服务器,过去一年的销售数据也散布在这三台服务器上,那么我可以让三台服务器并行工作,每台服务器都把自己存储的销售数据进行求和,得到三个求和的结果,最后再进行汇总,得出最终结果。这样,效率又提升了很多。
  由于企业的数据量越来越大,并且增速也越来越快,尤其是互联网企业,天生就是大数据环境作业,采用分布式计算是必不可少的。分布式计算的优点也很明显。根据经典的定义,分布式计算具有以下优点:首先,稀有计算资源可以共享;其次,通过分布式计算可以在多台计算机上平衡计算负载;再次,可以把程序放在最适合运行它的计算机上。
  其中,共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。
  最早分布式计算的应用场景是为了应对需要非常巨大的计算能力才能解决的问题,一般是跨学科的、极富挑战性的、人类急待解决的科研课题。其中较为著名的是解决较为复杂的数学问题,例如GIMPS(寻找最大的梅森素数);研究寻找最为安全的密码系统,例如RC-72(密码破解);生物病理研究,例如Folding@home(研究蛋白质折叠、误解、聚合,及由此引起的相关疾病);各种各样疾病的药物研究,例如United Devices(寻找对抗癌症的有效的药物);信号处理,例如SETI Home(在家寻找地外文明)。
  当然,我们在企业里做数据分析遇到的问题肯定远没有上面这些高大上的问题复杂,否则我们做的可能不是面向一般大众的企业。但上面这些问题可以允许有很长的运算周期,人们本来就不期望能在几小时内就把这些问题算完,而我们需要的是几秒内就看到数据分析的结果展现,所以也需要通过分布式计算来进行提速。在这种情况下,我们需要的就不是一台超级计算机,而是多台高性价比的服务器,搭建成集群。
  内存计算
  下面再来谈谈内存计算和分布式通信。内存计算(In-Memory Computing),实质上就是CPU直接从内存而非硬盘上读取数据,并对数据进行计算、分析。一般地,内存访问速度比硬盘要快几百倍甚至上千倍,通过内存计算,CPU直接从内存而非硬盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速,是实现敏捷BI中海量数据分析的关键应用技术。
  光这么说可能给人感觉是废话,因为事实上任何一个系统在进行计算时都是要把数据加载到内存的。关键点在于是否有好的算法能让内存计算的效用发挥到最大,将硬盘I/O减到最少,并且减少内存的工作环节。通过更优的方法,内存的优势能被淋漓尽致地发挥到敏捷BI的数据计算当中来。
  分布式通信
  分布式通信是比较底层的技术,市面上介绍得也比较少。不过,中间过程的计算结果能否在服务器集群中稳定且高效地传输,是整个集群能否达到高性能实时计算的关键。高性能主要体现在可复用的TCP/IP连接(通信连接),多路的信息传输、异步的信息传输、稳定的内存使用、健壮的信息传输这几个方面。
  敏捷BI
  列存储、分布式计算、内存计算、分布式通信,都不是新的技术,已经日趋成熟。我们要做的,是更好地利用这些技术,并将它们完美地整合到一起,发挥1 1>2的效力。同时,要在原有技术水平上不断突破,持续优化每一种技术的内部逻辑和算法,加强每一点的能力,最终实现整体的质的飞跃。这些技术的组合,为敏捷BI实现可视化分析奠定了重要基础。
其他文献
5月5日,华为推出新一代高端融合存储OceanStor 18000 V3,将高端存储的稳定性和性能推向“极致”。紧接着,5月8日,浪潮新一代高端存储AS18000正式发布,在性能、延迟等方面继续刷新纪录。中国存储厂商为何在此时突然集体爆发?  高端存储 我们来了  中国存储厂商在高端市场上的爆发并不奇怪。这是中国存储厂商厚积薄发的必然结果。上至国家,下至个人,大家都有一个中国梦。对于中国存储厂商来
耗材打印量多少、价格高低一直是喷墨打印机用户最关心的问题。过去,为了降低打印成本,很多喷墨打印机用户都使用兼容耗材或者连续供墨系统,但是随之而来的影响打印机保修、墨水质量良莠不齐、填充墨水不便等问题,也困扰着用户。  墨仓更大  针对上述问题,兄弟近日发布了4款采用内置式墨仓的彩色喷墨一体机DCP-T300、DCP-T500W、DCP-T700W、MFC-T800W。它们内置的超大容量墨仓不仅颠覆
近年来,全球国际贸易仍然没有走出2008年开始的次贷危机阴霾。发达经济体进口需求低迷,发展中国家贸易环境恶化。   当前形势下,什么样的企业能够销售过亿,增长过倍?通过我们的研究发现,这样的奇迹正在跨境电商领域上演。目前,在该领域也涌现出了Anker、THL手机、福建新时颖服饰工贸、福建纵腾网络、深圳腾威视频科技、广州葇薇服装等一批跨境电商典范。这类电商通常拥有自有品牌,会采用B2C直销模式,重
人类文明已从远古时代进化到了互联网时代。在远古时代,人类的手被用来拉弓狩猎、摘更多的果子;在古代,人类的手又被用来织布、耕田;到了工业时代,人的一双手被“派”去操作各种机器……手随着人类生产力的不断提升而被分配不同的工作。而在现在的互联网时代,一些人的手因为过多地使用鼠标,过多地触摸手机屏幕而发生了一定的病变,而发生了病变的手也被冠以了新的名称:“鼠标手”、“手机手”……  “一只手有一百多条韧带
近日在北京举办第十九届中国国际软件博览会上,北京慧点科技有限公司(简称慧点科技)获得了“2015年度中国软件行业竞争力品牌”荣誉称号。这是对慧点客户的产品与服务、细分市场策略、业务创新和优势的客户资源积累等方面的充分肯定。   作为率先将GRC(Governance、Risk and Compliance,即管控、风险与合规遵从)理念引入国内的管理软件厂商,慧点科技的主营业务是面向大型、集团型企
提到Wi-Fi恐怕没有人不知道,就连白发苍苍的老人和小朋友到了一个地方,第一句话问的都是:“你这Wi-Fi密码多少?”。与Wi-Fi超高的知名度相比,Wi-Fi联盟的知名度可能就小很多了。但是Wi-Fi之所以有现在的知名度,与Wi-Fi联盟的努力是分不开的。  “Wi-Fi设备的发货量已经超过了100亿台,60亿设备正在使用。手提电脑、手机广泛使用Wi-Fi,包括电视、汽车这样的设备也渐渐开始使用
实际上,在微信崛起后,业界一直期盼腾讯如何差异化发展QQ。近日,这一谜题终于揭晓了。在中国移动社群大会上,腾讯QQ对外发布了依托QQ群、兴趣部落、QQ公众号三位一体打造的全新移动社群生态战略,并提出在移动、开放、社交、连接成为行业主流语境的当下,社群已进入“连接一切”的3.0时代。  “中国互联网的历史就是一部社群演进变迁史,从最早的BBS、QQ群到贴吧、豆瓣、SNS、微博,以及现在的微信、QQ兴
11月8日,北京北展剧场。  成百上千的人们聚集在一个名为“光启马丁飞行喷射器”的装置旁边,见证着“个人飞行装置”的中国首飞。通过这套装置,按动操作按钮,每个人都能实现垂直起降和空中的快速前行。现场的人们跃跃欲试,盼望着能像电影《钢铁侠》中的Tony Stark一样自由飞行。  自“伊卡洛斯之翼”起,人类对飞行的探索从未停止。科幻电影里,未来世界机器人的亦正亦邪总能激发热门话题。无论是海市蜃楼,还
随着互联网、移动互联网的深入应用,企业数据量正在呈爆炸性增长,以至于很多企业都用数据湖来描述数据。这给企业的数据应用带来了极大的挑战。有业内人士分析说,如果不能很好地利用数据,那么数据湖就会变成数据沼泽。  为了避免这种情况的发生,9月10日SAP在青岛举办的SAP创新业务平台峰会上宣布推出SAP HANA Vora。这是一项针对Hadoop的最新内存计算创新。SAP HANA Vora是一款全新
金山云 惠普战略合作能擦出什么火花?这可不是金山云采购惠普服务器那么没有想象空间的合作。金山云CEO张宏江采访时爆料很多,包括与竞争对手的对比,以及世纪互联私有化的问题。  就在7月21日下午,中国互联网大会云计算分论坛上,金山云和惠普宣布在一起了。金山云 惠普?这对组合到底能擦出什么火花?  首先,不要认为金山云只有小米那部分的2C云业务,奇怪2C 2B怎样互补?金山软件董事长雷军去年说服集团