论文部分内容阅读
美国沃尔玛超市“尿布、啤酒摆在一起使得啤酒销量大增”的销售奇迹一直为零售行业人士所津津乐道。随着技术的进步,以前这种偶然的、由人工(逻辑分析和抽样统计)实现的商业分析流程将进化为必然的、全自动的流程——借助大数据的力量,从看似毫无关联的数据中提取可供业务借鉴的价值。
这正是白宫网站发布的《大数据研究和发展倡议》所追求的——“通过收集、处理庞大而复杂的数据信息,获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,转变教育和学习模式”。
各行各业都能用得上大数据,只是对大数据重要性的意识程度不同:凯捷咨询(Capgemini)的调研结果显示,76%能源和自然资源行业的高管相信公司是数据驱动的,在医疗医药行业和生物科技行业这个数字为75%,在金融行业为73%。包括英特尔在内的有能力提供大数据解决方案的IT厂商正在努力让各行各业的企业切实感受到大数据的魔力。
能否置身事外?
随着网络应用和多媒体应用的兴起,互联网成为大数据的主要来源。随之而产生的网络营销调整围绕大数据而展开。淘宝是国内公认的对用户数据利用得较好的公司——淘宝网利用大数据统计分析得到诸如“欧洲杯的球队胜负如何影响各队球衣的销量?花露水的最佳搭配是电蚊拍还是痱子粉?”等问题的有趣结果,并以此为依据来更好地调整营销战略。
近日,阿里巴巴集团宣布,将在集团管理层面设立首席数据官岗位(Chief Data Officer),负责全面推进阿里巴巴集团成为“数据分享平台”的战略。这直接证明了大数据对于互联网企业的意义。
别的行业能不能对大数据冷眼旁观呢?赛迪智库软件与信息服务业研究所研究员安晖认为,虽然目前大数据的主要来源是互联网,但许多以信息流作为核心竞争力,如金融、电信、零售等行业的机构或企业,其数据量也不容低估。例如,美国国家海洋和大气管理局(NOAA)数据中心存储的数据超过20PB,沃尔玛数据中心的存储能力超过4PB,eBay分析平台每天处理的数据量高达100PB。并且,由于这些机构和企业所存储的数据更加有针对性,其数据的价值密度更高,进行大数据处理的意义更强,运用大数据的需求也更为迫切。
安晖以数个典型行业为例来说明大数据能带来什么好处——电信行业可以从庞大的数据中分析出不同群体的差异化需求,实现套餐制定等精准营销;制造行业可以通过整合来自研发、工程和制造部门的数据以实行并行工程,显著缩短产品上市时间并提高质量;交通行业可以通过整合和处理相关数据,实现智能交通(管理)与高效物流调度。
赛迪顾问软件与信息服务业研究中心研究总监胡小鹏认为,金融行业中证券、信用卡、电子支付等数据规模庞大,具有使用对象多样化、信息可靠性、实时性、保密性要求高等特点;电信行业中大数据主要体现为电信业务系统产业的计费账务数据和用户信息(包括客户资料、客户服务数据等),不仅数据量大,而且保存时间长;能源行业大数据主要集中在石油勘探以及电力生产、经营、管理等数据,具有数据量大、分散、类型复杂等特点。其中,在金融行业,利用大数据的挖掘和分析改善用户体验、监督欺诈行为、验证合规性、服务创新等,从而助力金融智能决策,提升竞争力;而对于电力行业,大数据分析有利于电网安全高效运行(安全检测与控制、灾难预警与处理、供电与电力调度决策支持和负荷预测)、电力营销(用户用电行为分析)、集团集中管控与精细化管理等。
大数据这场盛宴上,哪个行业也不愿意没有一席之地。
谁能站出来?
大数据的热度可以由英特尔、IBM、EMC、惠普等厂商纷纷推出面向大数据的一体化产品和解决方案直接反映出来。
然而,一个不能逃避的现实是,虽然越来越多的行业用户尝试应用大数据的解决方案,但是大多数行业用户对于大数据的认知仍然比较有限。面对林林总总的不同厂商提供的大数据解决方案,用户分不清这些解决方案的差异在哪里,也就不会真正了解哪种解决方案适合自己。
有用户反映,大数据解决方案容易给人的错觉是该解决方案就是把数据分布存储,再并行处理。即使采用国外厂商的工具,这些工具成熟度不是特别高,导致解决实际问题的时间过长。
英特尔相关专家表示,从总体上看,中国大数据市场发展迅速,特征明显,相关技术和应用可改进和提升的空间巨大。而且大数据要落地,必须实现包括芯片商、软件企业等在内的IT基础设施与服务层平台的开放。
英特尔在硬件上的领先无需多言。在软件层面,考虑到Hadoop的开源特性,很多厂商都有机会在Hadoop的基础上推出产品,但行业解决方案提供商面临的一个苦恼是,他们不得不进行底层开发。实际上,底层解决方案是有很多共性的。对行业解决方案提供商来说,如果有一个由可靠厂商优化过的平台再好不过了。利用这个平台,行业解决方案提供商可以抛开重复的、无意义的劳动,将注意力和精力更加集中在行业特点上,进而开发出满足行业所需的实打实的行业解决方案。在这种情况下,英特尔适时地推出了英特尔Hadoop发行版,打造一个优秀的、高价值的底层平台。
对于如何从大数据中发掘价值,英特尔指出,这需要在IT基础设施与服务层、数据组织与管理层、数据分析与发现层、决策支持与IT服务层全面引入新的技术,特别是在堪称大数据应用“载体”的IT基础设施与服务层,采用基于开放架构的平台将是最佳选择。
O‘Reilly Strata和Open Source Convention大会委员会主席Edd Dumbill曾指出,使大数据真正变得强大的方式之一就是让上层程序员可以将精力放在数据而非底层Hadoop设施的抽象特征上。他们编写更简短的程序,能够更清晰地表达出对数据所做的处理。这些将有助于为非程序员创建更好的工具。
延伸到企业层面,“行业解决方案提供商需要稳定性和可用性都足够好的平台。在这样的平台上,行业解决方案提供商可以从不必要的重复性劳动中解放出来,从而把更多的精力放在提供差异化特色方案和服务上。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔的看法类似。进而,他解读了英特尔Hadoop发行版的优势:“英特尔Hadoop发行版的优势在于:处理接近于实时;能在英特尔平台上实现最优化的性能,比非英特尔发行版有成倍的增长;通过和电信、智能城市、医疗等行业客户的合作,英特尔Hadoop还做了更进一步的优化。”
除了提供平台,英特尔(中国)行业合作与解决方案部中国区总监凌琦强调,英特尔还会把大数据解决方案的研究和服务作为投资部门的重点。英特尔的风险投资部门也对大数据中所涉及的关键平台、关键应用、提供商,给予关注。
行业侧重点
英特尔硬件平台的特点让其可以用“通吃”来形容,行业特色则由软件来体现。
正如英特尔Hadoop发行版白皮书所指出的,它“为企业应用而优化”,其拥有的增强高可靠性、增强分布式文件系统HDFS扩展性(使集群的I/O吞吐量能够随着节点数量的增加而线性增加)、动态调整数据复制策略(提高热点数据的并发访问能力)、改进分布式计算框架调度算法(避免并行任务退化成串行执行)、增加Hadoop集群监控管理、优化HBase查询、实现细粒度的HBase合并调度控制(避免合并风暴)、创建异地HBase大表、均衡负载等相对开源Hadoop和其他Hadoop发行版的核心优势在多个行业中均不可或缺。
胡小鹏总结了在典型行业中,解决大数据相关的问题时所需要注意的侧重点:在金融行业,首先是安全风险防范的问题,其次是与金融业务需求的结合;在电信行业,现有数据仓库架构的扩展、改造,业务模型、数据视图的构建是重点也是难点;在制造行业,数据整合和集成;在能源行业,数据整合;在交通行业,针对交通系统的动态性,需要进行实时分析,及时快速地处理突发事件。
与之相对应的就是英特尔Hadoop发行版的多个特点和优势:对金融行业而言,集群监控管理、跨数据中心远程复制很重要;对电信行业来说,负载均衡、热点数据的并发访问能力、改进分布式计算框架调度算法、创建异地HBase大表必不可少;在制造行业和能源行业,细粒度的HBase合并调度控制是关键;在交通行业,优化HBase查询、增强应用结果处理能力势在必行。
这正是白宫网站发布的《大数据研究和发展倡议》所追求的——“通过收集、处理庞大而复杂的数据信息,获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,转变教育和学习模式”。
各行各业都能用得上大数据,只是对大数据重要性的意识程度不同:凯捷咨询(Capgemini)的调研结果显示,76%能源和自然资源行业的高管相信公司是数据驱动的,在医疗医药行业和生物科技行业这个数字为75%,在金融行业为73%。包括英特尔在内的有能力提供大数据解决方案的IT厂商正在努力让各行各业的企业切实感受到大数据的魔力。
能否置身事外?
随着网络应用和多媒体应用的兴起,互联网成为大数据的主要来源。随之而产生的网络营销调整围绕大数据而展开。淘宝是国内公认的对用户数据利用得较好的公司——淘宝网利用大数据统计分析得到诸如“欧洲杯的球队胜负如何影响各队球衣的销量?花露水的最佳搭配是电蚊拍还是痱子粉?”等问题的有趣结果,并以此为依据来更好地调整营销战略。
近日,阿里巴巴集团宣布,将在集团管理层面设立首席数据官岗位(Chief Data Officer),负责全面推进阿里巴巴集团成为“数据分享平台”的战略。这直接证明了大数据对于互联网企业的意义。
别的行业能不能对大数据冷眼旁观呢?赛迪智库软件与信息服务业研究所研究员安晖认为,虽然目前大数据的主要来源是互联网,但许多以信息流作为核心竞争力,如金融、电信、零售等行业的机构或企业,其数据量也不容低估。例如,美国国家海洋和大气管理局(NOAA)数据中心存储的数据超过20PB,沃尔玛数据中心的存储能力超过4PB,eBay分析平台每天处理的数据量高达100PB。并且,由于这些机构和企业所存储的数据更加有针对性,其数据的价值密度更高,进行大数据处理的意义更强,运用大数据的需求也更为迫切。
安晖以数个典型行业为例来说明大数据能带来什么好处——电信行业可以从庞大的数据中分析出不同群体的差异化需求,实现套餐制定等精准营销;制造行业可以通过整合来自研发、工程和制造部门的数据以实行并行工程,显著缩短产品上市时间并提高质量;交通行业可以通过整合和处理相关数据,实现智能交通(管理)与高效物流调度。
赛迪顾问软件与信息服务业研究中心研究总监胡小鹏认为,金融行业中证券、信用卡、电子支付等数据规模庞大,具有使用对象多样化、信息可靠性、实时性、保密性要求高等特点;电信行业中大数据主要体现为电信业务系统产业的计费账务数据和用户信息(包括客户资料、客户服务数据等),不仅数据量大,而且保存时间长;能源行业大数据主要集中在石油勘探以及电力生产、经营、管理等数据,具有数据量大、分散、类型复杂等特点。其中,在金融行业,利用大数据的挖掘和分析改善用户体验、监督欺诈行为、验证合规性、服务创新等,从而助力金融智能决策,提升竞争力;而对于电力行业,大数据分析有利于电网安全高效运行(安全检测与控制、灾难预警与处理、供电与电力调度决策支持和负荷预测)、电力营销(用户用电行为分析)、集团集中管控与精细化管理等。
大数据这场盛宴上,哪个行业也不愿意没有一席之地。
谁能站出来?
大数据的热度可以由英特尔、IBM、EMC、惠普等厂商纷纷推出面向大数据的一体化产品和解决方案直接反映出来。
然而,一个不能逃避的现实是,虽然越来越多的行业用户尝试应用大数据的解决方案,但是大多数行业用户对于大数据的认知仍然比较有限。面对林林总总的不同厂商提供的大数据解决方案,用户分不清这些解决方案的差异在哪里,也就不会真正了解哪种解决方案适合自己。
有用户反映,大数据解决方案容易给人的错觉是该解决方案就是把数据分布存储,再并行处理。即使采用国外厂商的工具,这些工具成熟度不是特别高,导致解决实际问题的时间过长。
英特尔相关专家表示,从总体上看,中国大数据市场发展迅速,特征明显,相关技术和应用可改进和提升的空间巨大。而且大数据要落地,必须实现包括芯片商、软件企业等在内的IT基础设施与服务层平台的开放。
英特尔在硬件上的领先无需多言。在软件层面,考虑到Hadoop的开源特性,很多厂商都有机会在Hadoop的基础上推出产品,但行业解决方案提供商面临的一个苦恼是,他们不得不进行底层开发。实际上,底层解决方案是有很多共性的。对行业解决方案提供商来说,如果有一个由可靠厂商优化过的平台再好不过了。利用这个平台,行业解决方案提供商可以抛开重复的、无意义的劳动,将注意力和精力更加集中在行业特点上,进而开发出满足行业所需的实打实的行业解决方案。在这种情况下,英特尔适时地推出了英特尔Hadoop发行版,打造一个优秀的、高价值的底层平台。
对于如何从大数据中发掘价值,英特尔指出,这需要在IT基础设施与服务层、数据组织与管理层、数据分析与发现层、决策支持与IT服务层全面引入新的技术,特别是在堪称大数据应用“载体”的IT基础设施与服务层,采用基于开放架构的平台将是最佳选择。
O‘Reilly Strata和Open Source Convention大会委员会主席Edd Dumbill曾指出,使大数据真正变得强大的方式之一就是让上层程序员可以将精力放在数据而非底层Hadoop设施的抽象特征上。他们编写更简短的程序,能够更清晰地表达出对数据所做的处理。这些将有助于为非程序员创建更好的工具。
延伸到企业层面,“行业解决方案提供商需要稳定性和可用性都足够好的平台。在这样的平台上,行业解决方案提供商可以从不必要的重复性劳动中解放出来,从而把更多的精力放在提供差异化特色方案和服务上。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔的看法类似。进而,他解读了英特尔Hadoop发行版的优势:“英特尔Hadoop发行版的优势在于:处理接近于实时;能在英特尔平台上实现最优化的性能,比非英特尔发行版有成倍的增长;通过和电信、智能城市、医疗等行业客户的合作,英特尔Hadoop还做了更进一步的优化。”
除了提供平台,英特尔(中国)行业合作与解决方案部中国区总监凌琦强调,英特尔还会把大数据解决方案的研究和服务作为投资部门的重点。英特尔的风险投资部门也对大数据中所涉及的关键平台、关键应用、提供商,给予关注。
行业侧重点
英特尔硬件平台的特点让其可以用“通吃”来形容,行业特色则由软件来体现。
正如英特尔Hadoop发行版白皮书所指出的,它“为企业应用而优化”,其拥有的增强高可靠性、增强分布式文件系统HDFS扩展性(使集群的I/O吞吐量能够随着节点数量的增加而线性增加)、动态调整数据复制策略(提高热点数据的并发访问能力)、改进分布式计算框架调度算法(避免并行任务退化成串行执行)、增加Hadoop集群监控管理、优化HBase查询、实现细粒度的HBase合并调度控制(避免合并风暴)、创建异地HBase大表、均衡负载等相对开源Hadoop和其他Hadoop发行版的核心优势在多个行业中均不可或缺。
胡小鹏总结了在典型行业中,解决大数据相关的问题时所需要注意的侧重点:在金融行业,首先是安全风险防范的问题,其次是与金融业务需求的结合;在电信行业,现有数据仓库架构的扩展、改造,业务模型、数据视图的构建是重点也是难点;在制造行业,数据整合和集成;在能源行业,数据整合;在交通行业,针对交通系统的动态性,需要进行实时分析,及时快速地处理突发事件。
与之相对应的就是英特尔Hadoop发行版的多个特点和优势:对金融行业而言,集群监控管理、跨数据中心远程复制很重要;对电信行业来说,负载均衡、热点数据的并发访问能力、改进分布式计算框架调度算法、创建异地HBase大表必不可少;在制造行业和能源行业,细粒度的HBase合并调度控制是关键;在交通行业,优化HBase查询、增强应用结果处理能力势在必行。