论文部分内容阅读
在石油勘探行业中,伴随着物联网技术的不断应用,油气开发环境和业务环境中产生了海量的数据。收集数据成本的逐渐降低和收集数据意识的不断提高,使油田上积累了海量、多维度的油气生产和管理数据。然而“海量的生产数据”与“匮乏的油田认知”逐渐成为油田行业发展的瓶颈。油气生产非结构化数据量庞大、类型众多,主要包含各种没有固定格式的基本业务数据体、生产成果文档、生产报表及“四化”(模块化建设、标准化设计、信息化提升、标准化采购)建设等数据,数据量在6TB~8TB。当前油气生产数据量的与日俱增,大大超出了传统数据库的存储范围,常规的数据库(如:My SQL、SQL Server、DB2等)存储和数据处理方法遇到了瓶颈。Hadoop作为一种新兴的分布式数据存储和计算框架,具有高可靠性、高扩展性、高效性和高容错性的特点,为存储和处理海量油气生产数据提供了新的思路。因此,本文将Hadoop技术应用于油气生产物联网中,设计并部署了Hadoop油气生产数据存储平台,并基于历史生产数据改进了油气产量预测模型,具体工作重点如下:首先,对Hadoop研究现状和技术优势进行分析归纳,明确油气生产数据在存储方面遇到的困难,从而确定将Hadoop技术应用到油气生产中用于可靠存储、高效查询和数据挖掘分析。其次,针对油田现场生产数据具有数据结构复杂,数据规模庞大,数据间关联性大等特点,结合Hadoop技术,本文设计了一种基于Hadoop技术的油气生产数据存储平台,实现了不同种类数据在Hadoop平台和传统数据库中共享交互,有利于在日后生产中对数据做深入的分析和挖掘。对于非结构化数据的存储设计,利用基于HDFS的HBase作为存储数据库;对于结构化数据的存储设计,采用了Oracle数据库作为离线数据仓库,提供离线的历史数据分析。而对于需要被实时查询的生产数据,则通过Redis内存数据库完成。在理论设计的基础上,实现了Hadoop油气生产数据存储平台的部署,并且对平台的性能进行测试,说明将Hadoop技术应用到油气生产物联网中是高效的、可行的。最后,针对国内许多油田已经进入产量递减阶段的问题,通过基于Hadoop平台存储的历史生产数据,在双曲递减跟指数递减模型的基础上提出了一种最优加权组合法产量预测模型,通过三种模型的预测结果和实际产量进行对比,得出最优加权组合预测模型的预测结果最逼近实际产量,具有极好的预测效果,可以考虑在广大油田试点运行。