平衡计算:在海量数据中“找”石油

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:joyden137
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在石油勘探行业,油气开发能力往往取决于能否获得精准的勘测结果。在石油勘探作业中,“找石油”的一半工作其实要依靠IT系统完成。当前,主要的方法是借由地震波法采集到相关数据,经过大量的计算处理后就能清晰地模拟出勘测区域的地下地质构造,并找到存有石油或天然气的岩层的精确位置。
  然而,这些数据通常动辄几十TB甚至上百TB,近年来海洋油气勘探所采集的数据更是开始向PB级规模发展。如何保存和备份这些海量数据都颇为棘手,实现大数据分析的高性能计算系统也同样面临捉襟见肘的局面。高性能计算架构应该如何演进,才能满足石油勘探行业无底洞般的数据量增长?在大数据分析领域被一致看好的云计算模式,又能否最终解决我国“找石油”的难题?
  平衡计算或成出路
  石油勘探行业对高性能计算的需要主要来自地震资料处理及油藏模拟。从应用的特点上来看,地震资料处理软件在算法上主要以频谱计算为核心,是典型的浮点计算密集型应用,以求解数据密集的波动方程为主要计算模式,对浮点计算能力要求较高,对内存带宽的占用中等,对大量密集的处理则需要良好的多核扩展性。目前,国内自主开发这类软件的公司主要采用PSTM叠前时间偏移和PSDM叠前深度偏移的算法,包括中国石油东方地球物理公司(BGP)自主开发的GeoEast、中国石化南京石油物探研究所开发的iCluster等。不同于地震资料处理应用,油藏模拟要求计算平台支持稀疏矩阵方程的迭代求解,其对内存带宽的要求非常高,且需要大缓存支持,因此这类软件可归为对内存带宽高度敏感的计算密集型应用。但伴随数据量的增长和一些新技术的应用,石油勘探行业对高性能计算的需求也在出现巨大变化。
  2011年,东方地球物理公司研究院处理中心的运算能力达到了每秒528万亿次。今年,东方地球物理公司研究院的计算需求不仅再度出现巨大飞跃,其计算系统也开始采取CPU GPU的混合模式。目前,其数据中心的计算能力已攀升至每秒695万亿次,处理器数量已超过23000个,拥有75000核芯的PCcluster高性能计算机集群。处理中心拥有的GPU数量达到了936个,约45万个核心,可以实现每秒576万亿次的运算能力。而驱动东方地球物理公司研究院持续提升计算能力的动因,正是石油勘探行业数据计算量的直线增加。
  在东方地球物理公司研究院处理中心总工程师赖能和看来,石油勘探行业对计算能力的需求几乎是永无止境的。但石油地球物理勘探行业在提升计算性能的同时,也必须考虑计算成本及计算效率的问题。特别是一些技术创新,对计算能力的需求往往也不尽相同。“比如现在流行的ISO及强迫性反演算法,在进行数据分析时都需要大量的计算机。如果通过过去的并行计算方式处理,成本高且效率低。用PCcluster高性能计算机集群处理也不行,因为服务器会占用大量场地,造成高功耗问题等,经济性不强,当前计算界正在研究的众核技术,就可以很好地解决这一问题,促进这些新技术的进步。”
  英特尔公司认为,石油勘探行业对计算能力的新需求,恰好反映了高性能计算实现快速可持续发展的必要条件:除了提供专为高度并行化应用优化的集成众核架构产品外,还需要平衡计算理念及相应产品技术创新的支持。事实上,英特尔提出的平衡计算理念就是把整个数据中心的IT设备(包含服务器、存储设备、网络设备)当做一个智能的大脑,担负计算任务的服务器是专门判断和处理信息的神经元,存储设备则是可以收纳海量信息,并随时准备接受访问和更新的记忆细胞,而网络就是连通所有神经元和记忆细胞的神经连接,惟有三者在性能和功能上尽量实现平衡,才能实现无缝的配合。
  今年3月上市的英特尔至强处理器E5产品家族正是英特尔平衡计算理念的最佳实践载体,它目前已应用于东方地球物理公司研究院现有的计算环境中。赖能和直言,在测试中E5的表现确实让人感到惊喜。可见,E5的优势并不只是比至强5600产品家族提升了双倍的性能,通过在处理器中集成支持PCI Express 3.0标准的I/O控制器,内置英特尔集成I/O和英特尔数据直接I/O技术,在平台层面以英特尔万兆位以太网控制器X540来提供低成本、低功耗的板载局域网(LOM)功能,E5确实为开放架构存储设备和网络设备的性能提升及功能丰富奠定了坚实的基础。
  通往云的高性能计算
  利用高性能计算实现大数据分析的一个重要课题,正是今天被人们炒得热火朝天的云计算,而云计算也是平衡计算理念最终的发展目标。业界对于高性能计算未来是否会与云计算融合,或者高性能计算应用负载是否会迁移到云计算平台的探讨早已开始。但很多的高性能计算用户对于打造高性能云的设想却一直存有疑虑,其原因就在于云计算平台虽然扩展更为方便,管理更为简单,资源分配更为灵活,但用于实现这些优势的基石——虚拟化技术,却会带来额外的性能开销,并可能形成新的性能瓶颈,这对于渴求更高性能,并将这些性能全部用于加速自身高性能应用负载执行效率的用户来说,是难以接受的。
  有助于推进平衡计算理念和实践的英特尔至强E5平台,无疑为打通高性能计算与云计算之间的通路带来了一个新的契机。来自美国国家航空航天局(NASA)的一项试验见证了这一趋势的可行性。它推进了一个名为Nebula的基于云的基础设施即服务(IaaS)环境,来寻求源于云计算技术的高性能计算解决方案。这个环境的核心技术基石,就是英特尔架构服务器、万兆位以太网技术以及OpenStack开源软件项目。英特尔积极参与了这个项目,与NASA的性能工程师密切配合,以验证架构在云上、基于虚拟化环境的高性能计算系统与非虚拟化的高性能计算系统相比,是否会产生性能开销或其他干扰性能的因素。测试结果表明,在英特尔架构平台所提供的I/O虚拟化技术和所支持的万兆位以太网技术的助力下,Nebula环境在MPI性能基准测试中给出的网络传输吞吐率和延迟测试成绩,超过了非虚拟化高性能计算方案。这初步证明高性能计算应用走向开放架构的云计算平台或环境是可行的,虽然还有一些技术问题有待解决,但采纳应用平衡的计算平台,无疑将是此后相关验证或尝试工作继续前行的重要前提。
  云计算能否应付物探大数据
  石油勘探行业是非常特殊的大数据行业,赖能和认为当前几乎没有哪个行业的数据量能超过他们。而云计算在大数据分析领域的成本优势则是非常显著的,它甚至还被一些业内人士认为是解决大数据分析问题的最佳IT模型。对于解决石油勘探行业的大数据分析难题,云计算到底能不能发挥能量呢?
  中国石化物探研究院正在积极开展云计算的研究工作。在谈到云计算与当前石油勘探行业高性能计算的结合点时,中国石化物探研究院副院长兼总工程师赵改善的态度显得非常积极。他认为,作为石油勘探行业的技术服务商,云计算首先是适用中国石化物探研究院这类企业的发展的,特别是对油田提供面向成像技术的专业云计算服务。其次,云计算浪潮中出现的很多技术,比如Hadoop等对于中石化开发自己的应用处理产品也很有帮助,特别是在分布式存储与分布式计算的融合、资源的动态调度以及高度的容错能力方面,其效果和可行性均已得到了验证。
  然而,如果改用私有云来解决这个行业的数据分析问题,当前很多问题还难以解决。赖能和告诉记者,东方地球物理公司研究院现阶段能做的仅是把分散的IT资源进行整合,然后把一些应用迁移到分布式计算环境中。但是如果用私有云来处理大数据分析,数据的迁移将是一个巨大的难题,这也是当初网格计算难以在全球推广的原因。其次,如何处理在云计算中的软件许可问题也是目前这类应用难以迁移到云环境的关键障碍。此外,数据传输的安全问题如何解决现在也没有很好的解决方案。
  他表示,目前全球能源行业的超算中心,对于海量数据的处理都还没有云计算应用的案例。一些超算中心虽然部分采用了网格计算,也仅是用其处理少量数据。
其他文献
人物类  中国物联网产业领军人物  江苏物泰信息科技有限公司 陈勇  2012年度中国法律行业信息化领军人物奖  北京博雅英杰科技股份有限公司 秦野  2012年度中国医疗卫生行业信息化贡献人物奖  浙江联众卫生信息科技有限公司 苗涛  2012年度中国IT职业教育领军人物奖  北大青鸟APTECH 初育国  2012年度中国林业信息化创新人物奖  贵州天外科技有限公司 胡军华  2012年度
作为一款政策性安全产品,网闸早期主要应用在军工、政府以及特定行业,因此市场规模并不大。就算是早在10年前就建立了网闸产品线的网御星云,到目前为止客户数量也不超过一万家。同时,由于对技术门槛和客户业务认知度的要求相对较高,涉足网闸的安全厂商也相对较少。市场研究机构Frost
利用数据分析,实现一个单一的细分市场,应该是营销的未来发展趋势,而对于银行业来说,一对一的营销能力同样被看重。  —— 费埃哲(FICO)首席执行官William Lansing  几周前,当费埃哲(FICO)首席执行官William Lansing参加斯坦福大学有关大数据会议的时候,他发现,业界关于大数据的热烈讨论已经从三个“V”增加到四个“V”,即Volume(数据量)、Variety(数据类
这一世纪刚刚开始的时候,计算刚刚走下神坛,进入人们的生活。那时,使用电脑被认为是一项专业技能,而PC也被很多人仅仅当成工作中的工具。    十年之间,计算离每个人越来越近。今天,使用电脑浏览互联网、玩游戏或是欣赏视频已经成了很多人生活的一部分。同时,企业的IT部门也开始发挥越来越重要的作用,开始成为业务发展不可或缺的一分子。另外,高性能计算也开始被应用在生产和生活中,从开采石油到预报天气,都仰仗计
作为四年一度的体育盛会,伦敦奥运会的举办成为全世界人们瞩目的焦点。透视此届奥运,绿色环保概念贯穿整体。在奥运的带动下,绿色环保理念深入人心,具备低碳节能属性的创新科技产品自然而然引发了消费者更多关注。作为全球LED打印科技开创者,OKI公司在1983年推出了全球第一台LED打印机,不但解决了环保难题,更是在打印机的稳定性、易用性、成本控制等先进技术上有了更大的突破,引领了一场打印行业的工业革命。 
“1亿零53万人次网民遭钓鱼网站侵袭,给中国网民造成的直接经济损失至少在百亿元级别。假淘宝网站、假腾讯网站、假工商银行网站、假中国银行网站,占据了钓鱼网站的前四位。” 7月19日,《瑞星2011上半年互聯网安全报告》(下文简称“瑞星报告”)新鲜出炉,瑞星安全专家表示,“云攻击”(Threats to Cloud)已成为现实,“云”端安全正在成为防护重点。  瑞星安全专家表示,储存了大量用户资料和行
日前,由国务院新闻办公室新闻发布会发布的消息称,继中央和国家机关后,全国31个省级政府机关于2012年6月30日前全部完成了软件正版化检查整改工作,此次中央和国家机关及省级政府机关软共采购办公软件506693套。  精确到个位的采购数量背后,是各个办公软件厂商的博弈。据金山办公软件副总裁肖玢介绍,此次省级政府机关正版化工作,国产办公软件已经占到近三分之二的份额,而金山WPS Office(下文简称
同一周里,苹果、亚马逊、诺基亚、摩托罗拉移动都有大动作。但是,这场已经划分阵营的较量还在等着苹果开火。  ——罗伯特·科林  上周是一个名副其实的“技术痴狂周”,移动产品和相关传言满天飞。先是柏林IFA2012上Windows 8平板电脑亮相,紧接着三星抢先发布WP8智能手机,又有摩托罗拉移动、诺基亚、亚马逊发布新品,苹果也确定了发布新品的时间,他们都在吸引你的眼球。当然,苹果还是一如既往的酷。 
美国沃尔玛超市“尿布、啤酒摆在一起使得啤酒销量大增”的销售奇迹一直为零售行业人士所津津乐道。随着技术的进步,以前这种偶然的、由人工(逻辑分析和抽样统计)实现的商业分析流程将进化为必然的、全自动的流程——借助大数据的力量,从看似毫无关联的数据中提取可供业务借鉴的价值。  这正是白宫网站发布的《大数据研究和发展倡议》所追求的——“通过收集、处理庞大而复杂的数据信息,获得知识和洞见,提升能力,加快科学、
CPU、操作系统和数据库等关键核心技术是信息安全保障的基础。近年来,在国家核高基政策的大力支持下,国产数据库软件等技术取得了突破性的发展。  第一,国产数据库软件市场份额接近10%。近几年,在国家核高基政策和《鼓励软件产业和集成电路产业发展的若干政策》(国发〔2000〕18号)、《进一步鼓励软件产业和集成电路产业发展的若干政策》(国发〔2011〕4号)等产业政策的扶持推动下,在政府项目采购的大力拉