基于数据挖掘的汽油精制过程辛烷值损失预测模型

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:qwedddessf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:汽油精制过程中造成的辛烷值损失会降低汽油的燃烧效率,如何降低汽油精制过程中辛烷值的损失量是目前相关企业面临的一个重要课题。本文利用我国某石化企业在催化裂化汽油精制过程中积累的数据,建立基于神经网络、测量误差模型以及DC-SIS数据降维方法的两阶段特征筛选模型,选择出对辛烷值影响比较大的因素。设计了一种基于XGBoost和神经网络的辛烷值预测模型,可以实现对不同原材料和不同操作下精制后辛烷值的预测,经验证,模型的均方误差为0.06876,所设计模型在处理辛烷值预测问题时可以达到比较好的预测效果。
  关键词:辛烷值  高维降维  测量误差模型  神经网络  XGBoost
  中图分类号:TP274                            文献标识码:A                    文章编号:1674-098X(2021)02(b)-0092-05
  Prediction Model of Octane Number Loss in Gasoline Refining Process Based on Data Mining
  LI Dongchao
  (School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing, Jiangsu Province, 210044 China)
  Abstract: The loss of octane number in the process of gasoline refining will reduce the combustion efficiency of gasoline. How to reduce the loss of octane number in the process of gasoline refining is an important issue facing related enterprises. This paper uses the data accumulated by a petrochemical enterprise during the refining process of catalytic cracking gasoline to establish a two-stage feature screening model based on neural network, measurement error model and DC-SIS data dimensionality reduction method, and select the one that has a greater impact on the octane number factor. An octane number prediction model based on XGBoost and neural network is designed, which can predict the octane number after refining under different raw materials and different operations. After verification, the mean square error of the model is 0.06876. A better prediction effect can be achieved in the alkane number prediction problem.
  Key Words: Octane number; High dimensionality reduction; Neural networks; XGBoost
  汽油是小型車辆的主要燃料,汽油燃烧产生的尾气排放对大气环境有重要影响。降低汽油中的硫、烯烃含量,同时尽量保持其辛烷值是汽油清洁化重点。我国原油对外依存度超过70%,且大部分是中东地区的含硫和高硫原油。原油中的重油通常占比40%~60%,这部分重油(以硫为代表的杂质含量也高)难以直接利用。为了有效利用重油资源,我国大力发展了以催化裂化为核心的重油轻质化工艺技术,将重油转化为汽油、柴油和低碳烯烃,超过70% 的汽油是由催化裂化生产得到,因此成品汽油中95% 以上的硫和烯烃来自催化裂化汽油。故必须对催化裂化汽油进行精制处理,以满足对汽油质量要求。辛烷值(以RON 表示)是反映汽油燃烧性能的最重要指标。在进行精制处理时,应该尽可能减小辛烷值的损失,以保证汽油的燃烧性能[1-2]。
  本文尝试从数据挖掘的角度出发,基于我国某石化企业在催化裂化汽油精制过程中积累的数据,对应影响辛烷值的因素进行了探索,并利用XGBoost模型建立了辛烷值的预测模型。
  1  数据来源以及数据预处理
  本文分析所用的数据来自于我国某石化企业催化裂化汽油精制脱硫装置在多年运行中积累的操作数据。获取的数据中包含325个样本,每个样本包括7个原料性质、2个待生吸附剂性质、2个再生吸附剂性质、2个产品性质等13个属性变量以及另外354个操作变量,共计367个变量。而响应变量则为精制过程中辛烷值的损失量。
  原始数据中,大部分变量数据正常,但每套装置的数据均有部分变量存在问题:部分变量只含有部分时间段的数据,部分变量的数据全部为空值或部分数据为空值。这些数据缺失、不合理/异常的情况需要进行包括数据填补、删除变量、异常值提出等数据预处理。具体的处理方式如下:   (1)对于只含有部分时间点的变量,部分缺失,则填补缺失值,如果缺失较多可将此类变量删除;
  (2)对于样本中数据全部为空值的变量,将此类变量删除;
  (3)对于部分数据为空值的变量,空值处用其前后两个小时数据的平均值代替;
  (4)对于部分不在范围内的样本,可根据操作要求及经验总结出原始数据变量的操作范围,采用最大最小的限幅方法将其剔除;
  (5)对于异常值的处理,可根据拉依达准则(3准则)去除异常值。
  2  变量筛选
  由于炼油工艺过程的复杂性以及设备的多样性,需要操作的变量较多且各个变量之间具有高度非线性和相互强耦联的关系[3]。这就导致这些变量之间是存在冗余信息的,在进行预测时引入这些存在冗余的变量,不仅会增大训练的成本,也有可能导致模型过拟合,甚至导致一些模型无法正常构建(如多重共线性问题)。因此为了减少过拟合、减少特征数量(降维)、提高模型泛化能力,也为了使模型获得更好的解释性,在建模之前需要首先进行特征筛选处理。
  在进行特征筛选时,一个必须坚持的原则就是尽可能充分的挖掘出特征之间的相互关系,这种相互关系可能是线性关系,也可能是非线性的关系。一般的,线性关系是比较容易识别出来的,而非线性关系则相对比较难以识别。因此本文将神经网络模型和测量误差模型结合起来,并采用两阶段处理的思路,创建了一种新的特征筛选的方法。该算法的基本流程如图1所示。下面对该算法的细节进行介绍。
  一般情况下,在进行工业操作时,比较接近的工业操作往往是存在一定的非线性和相互强耦联的关系的,因此本文在筛选变量的第一阶段先对相邻变量间的相互关系进行探索。具体地,首先对数据中的所有变量按照工业操作顺序进行排序处理,得到排序后的变量数据集为,其中P为数据集中变量的总个数。然后,再采用滑动分箱的手段将这P个变量分为 个“箱子”。滑动分箱的细节为:
  对于第i个变量X1,我们选中其前后各K个变量作为第i个箱体bini中的变量。对每个变量执行上面的操作,可以得到分箱后的箱体集合为,其中值得注意的是,对于靠近边界处的变量,其某一侧变量的个数可能不足K个,则按不足 K个变量选择。
  完成对变量的分箱之后,下面对每个箱体内部变量之间的相关性进行探索。考虑变量之间的关系可能不是简单的线性关系,本文利用神经网络模型在拟合非线性关系上的优异表现,设计了一种基于神经网络的测量误差变量筛选模型[4-5],模型的基本思路见图2。
  对于第i个箱体bini,我们选择变量k作为中心变量,为协变量,拟合变量与xi之间的神经网络模型NNi,得到预测结果 。
  接下来,根据测量误差模型的思路,如果协变量结合中的变量Xj与Xi之间存在强耦合关系,那么当我们给Xj加上一个比较小的误差时,在利用神经网络模型NMi对预测时,预测的结果应该会发生比较大的变化,相反的,如果两者的相互关系比较弱时,那么预测的结果应该不会发生比较大的变化。我们分别逐次给协变量集合中的每个变量加上一个比较小的误差,然后将加上误差的协变量集合带到模型NMi中,得到对Xi结果预测结果。得到预测结果后,为了衡量加上误差后预测结果的变动程度,我们设计了一个灵敏度指标这个指标的取值越大说明对应变量对中心变量 的影响程度越大,即可以认为两个变量的耦合关系越强。我们给定阈值Wesholol,选择灵敏度小于阈值对应的变量,便可以对箱体Bini内的变量进行降维处理。
  对每个箱体进行相同的处理,然后将得到的所有变量合并去重组合在一起,便可以完成第一阶段的降维处理。
  第二阶段的特征降维主要是利用DC-SIS算法[6-7]对第一阶段的结果再次进行降维处理。DC-SIS即基于距离系数的特征筛选方法,该方法通过定义特征与响应变量之间的距离相关系数来衡量变量的重要程度,具体地,对于随机变量u和v,他们之间的距离相关系数定义为
  其中,和表示随机变量u和v的特征向量,表示它们的联合特征函数,du和dv表示随机向量u和v的维数,而,该式中,则表示的欧式范数。
  按照上述方式定义距离相关系数的优势在于,两个随机向量的距离相关系数为0当且仅当它们相互独立.此外,两个一元正态随机变量的距离相关系数则随着它们之间的皮尔逊相关系数的绝对值严格递增。同时,该特征筛选方法能够直接用来处理分组变量以及多维因变量的筛选过程,也不需要预先假定变量与因变量之间的模型框架,所以可以称得上是完全无模型方法,适合用于处理本问题中非线性特征重要性的分析。
  根据上面的定义,只需要通过对距离相关系数进行估计与排序,便可以计算出各个变量的重要性了。
  对汽油精制过程按照前述三步两阶段的方法进行处理,可以得到汽油精制过程中重要的特征有19个,如表1所示。
  根据表1可以发现,对辛烷值损失量影响比较大的特征中除了一些操作变量之外,还有一些原材料属性变量,如辛烷值、硫含量、饱和烃、烯烃。这与一般的认知是相符的,在进行精制时,辛烷值的损失量不仅取决于操作技术的水平,还取决于原材料的原始属性。
  3  基于XGBoost和神经网络的辛烷值损失预测
  XGBoost模型是Boosting 算法的一种。该算法思想就是不断地添加树,并通过特征分裂来生长一棵树,每添加一棵树就是学习一个新函数,去拟合上一步预测的残差。通过不断的迭代学习,最终实现对目标变量的预测。
  尽管XGBoost模型作為一个机器学习模型有很好的表现,但是考虑到树模型在处理回归问题时仍存在一定的局限性,因此本文将XGBoost模型与神经网络模型进行了融合,首先利用XGBoost模型进行训练并计算残差,然后再利用神经网络模型对XGBoost模型的预测残差进行拟合,以便达到一个比较好的预测效果,即辛烷值损失量的预测值为,其中表示XGBoost模型的预测结果,表示神经网络对参加的进一步拟合结果。接下来将对具体解决问题的过程进行说明。   在本文要解决的问题中,由于炼油工艺过程的复杂性以及设备的多样性,操作变量众多,且变量间具有高度非线性和相互强耦联的关系,不利于分析并发现模型的主要变量和因素。这里选择经过数据预处理和建模变量筛选后的19个具有代表性的主要变量来作为训练辛烷值损失预测模型的解释变量,经过前面的特征选择方法,认为这19个变量可以比较充分的反应原始变量中的信息。而响应变量则为辛烷值的损失量。
  在训练模型时,本文首先在原始的325个样本中随机选择70%的样本数据作为训练集,用以训练模型,确定XGBoost模型和BP神经网络模型的参数。而另外30%的样本数据则作为测试集,用来测试模型的预测效果如何。
  经过测试,该模型对汽油精制过程中辛烷值损失量的预测效果是比较好的,模型的MSE(均方误差)为0.06876。具体的预测效果如下图所示:
  由图3-1可以看出,经过精制处理后真实的辛烷值与预测的辛烷值是比较吻合的,这证明基于XGBoost和神经网络的辛烷值损失预测算法在预测辛烷值的损失情况时是有一定的可参考性,我们可以利用该模型来对不同的原材料和处理工艺进行分析,以便针对不同质量水平的原材料设计不同的精制工艺。
  4  总结
  本文为了预测汽油精制过程的辛烷损失情况,利用我国某石化企业在催化裂化汽油精制过程中积累的数据,对精制过程中影响辛烷值损失量的因素进行了探索,设计了一种基于神经网络、测量误差模型以及的DC-SIS数据降维方法的两阶段特征筛选模型,可以在较多的操作变量中选择出对辛烷值影响比较大的因素,进一步地,本文设计了一种基于XGBoost和神经网络的辛烷值预测模型,可以实现对不同原材料和不同操作下精制后辛烷值的预测,这有利于相关工作人员根据不同的原料选择不同的操作方法来减少辛烷值的损失量,经过验证,模型的均方误差为0.06876,相对较小,说明该模型是有一定的实用价值的。
  参考文献
  [1] 鲍树海.炼油化工企业催化汽油加氢工艺技术[J].化学工程与装备,2020(10):25-26.
  [2] 赵鹏,焦峰,郭良,赵娟.降低催化裂化汽油烯烃含量的操作手段及优化方向[J].中外能源,2019,24(07):74-78.
  [3] 张大齐.催化裂化汽油中轻汽油脱硫的研究[D].武汉工程大学,2016.
  [4] Jae Kwon Kim, Sanggil Kang. Neural Network-Based Coronary Heart Disease Risk Prediction Using Feature Correlation Analysis[J]. Journal of Healthcare Engineering, 2017, Article ID 2780501, 13 pages.
  [5] White, K. R., Stefanski, L. A., and Wu, Y. Variable Selection in Kernel Regression Using Measurement Error Selection Likelihoods[J]. Journal of the American Statistical Association, 2017, 112, 1587–1597.
  [6] Li, R., Zhong, W. and Zhu, L.Feature Screening via Distance Correlation Learning. Journal of American Statistical Association,2012,107, 1129-1139.
  [7] 連亦旻.超高维特征筛选方法SEVIS及其应用[D]. 中国科学技术大学, 2017.
其他文献
摘 要:在我国经济发展的过程中,工业锅炉一直是影响我国经济平稳发展的强大动力来源,工业活力的存在,对各行各业的发展都具有一定的推进作用。但同时也在能源方面得到了大量的消耗。工业锅炉的工作运行的过程中会排出大量的烟气和污水,而这些烟气和污水中含有大量未被有效利用的热能,造成了严重的能源浪费现象。在这样的背景下,本文对冶金工业中的锅炉本身的特点进行分析,从而找到影响着热能回收方面效率的重要因素,积极提
摘 要:随着闸门防腐现场喷锌技术的推广,黄河引黄闸闸门的防腐、延寿也正运用该项技术;该项技术在室内极易实现,相关操作数据较为完善,但现场喷锌技术在实施操作中仍存在问题,笔者通过多年工程施工经验积累,在本文中提出了相关实施措施及注意事项,以利于该技术在提升复杂黄河水沙环境下闸门的防腐水平,成为黄河涵闸闸门延寿的关键。  关键词:闸门防腐 现场喷锌 措施 应用  中图分类号:TU73
摘 要:本文根据国家制冷空调协会以及世界相关行业组织公布的相关数据资料,综合统计各方数据信息,对国内外制冷空调行业情况进行分析。我们在此基础上,利用新时代技术与思想促进国内外制冷空调行业进一步发展,根据已有发展现状分析国内外制冷空调行业市场未来发展趋势。本文重点论述国内外制冷空调行业发展情况与市场变化趋势,预测我国制冷空调未来发展趋势,寻求机会占领世界制冷空调市场上的有利地位。  关键词:国内外
摘 要:为克服传统新能源结算机制无法追补穿越电量的弊端,本文建立集中打捆上网新能源新型结算机制。首先,建立基于主配电网信息融合的电能量采集系统,为电网结算的实时数据采集及新能源场站运行状态的实时监测提供了基础平台;其次,根据各新能源场站的运行状态,建立多场景结算电量计算模型,并采用多场景变换的分时段结算方法对上下网电量进行核算。  关键词:新能源结算 穿越电量 电能量采集系统 多场景分析  中图分
摘 要:为实现单梁桥式起重机械作业的多元化,部分单梁桥式起重机梁上同一轨道装有两台起重吊装小车,便于同一个工位可以同时实现多种类吊装物的吊装,为避免桥式单梁桥式起重机两台小车作业过程中运行碰撞,采用小车运行互锁方法进行实现。目前安装两台小车的单梁桥式起重机,两小车之间的互锁方式主要采用两种方式:一是红外式,即小车上安装红外发射器,另一台小车安装红外反光板,通过设定红外装置的收发反应距离,确定两小车
DOI:10.16660/j.cnki.1674-098x.2011-5640-5815  摘 要:当前,我国民航运输业、制造业蓬勃发展,技能型人才需求量巨大,这推动着我国民航职业教育快速发展。高职院校毕业生在实际工作中的技能水平基本得到了企业的认可,但在民航企业重视的质量、适航、安全等文化的认同和执行上尚有欠缺。本文分析了民航职业人才培养现状,探讨了质量适航安全文化理念培养目标定位,构建了质量适
摘 要:超高分子量聚乙烯(UHMWPE)是高分子聚合物的一种,在使用过程中既有弹性的一面,也有非弹性的一面。以弹性为基础,从线性和非线性角度出发,通过单轴拉伸实验获得UHMWPE的力学性能曲线,对比实验曲线和本构模型拟合曲线,讨论了Ogden超弹性模型对UHMWPE力学性能拟合的适用性。结果表明Ogden超弹性本构模型可以很好地拟合实验结果,为以后采用有限元分析方法研究UHMWPE机械性能响应提供
DOI:10.16660/j.cnki.1674-098X.2011-5640-6442  摘 要:随着时代的快速发展,社会企业对于综合性技术人才的需求不断加大,以适应社会发展的具体需求,这就需要高职院校能够结合社会的实际需求,针对学生的创新能力予以全面提升,尤其是机械教学实践中,这方面能力的提升更为重要。对此,文章针对高职机械教学中对学生创新能力的提升策略进行了分析。  关键词:高职 机械教学
摘 要:针对铁路25T型密接式车钩提钩作业中存在的提钩困难和安全隐患问题,分析得出25T型密接式车钩的结构设计特点是导致提钩人员不易提开车钩的主要原因,对25T型密接式车钩施行人力提钩作业是造成劳动安全隐患问题的重要原因。因此,将25T型密接式车钩的结构设计特点造成的人工提钩劣势转换为机器提钩优势是遥控电动提钩机设计的技术要点。对25T型密接式车钩所需提钩力的大小进行研究计算,对遥控提钩机受到的拉
摘 要:孤岛采油厂准备大队油管厂担负着整个孤岛油区隔热管清洗、修复任务。为提高隔热管的修复质量和效率,有效延长注气生产周期,保证作业施工及时率和成功率,研制了隔热管丝扣自动清理装置。隔热管丝扣自动清理装置设计安装在隔热管传输线上,它主要由密封接头取出装置、丝扣清理装置、托板滑道机构、固定及限位机构四大部分组成。装置工作过程包括密封及头取出、密封接头释放、丝扣清理三个持续循环的过程。通过实际应用及收