论文部分内容阅读
在工业过程中,一些重要的质量变量往往无法通过在线仪表实时测量得到,并且实验室离线分析可能存在比较大的时间滞后性和高成本的情况。软测量技术通过构建易测变量与质量变量间的函数关系,实现对质量变量的在线监测。对于具有非线性、多阶段等特征的工业过程,建立单一结构的全局软测量模型往往会出现泛化能力不强,过程阶段性解释力差等局限。本文研究了基于集成学习的多模型建模方法,通过构造多个简单的局部模型,最后,按照约定的规则对局部模型的输出结果进行融合,得到最终的模型输出。以集成学习思想和高斯过程回归(Gaussian Process Regression,GPR)算法为基础,对现有软测量技术进行了改进,主要取得的成果如下:1)针对实际工业过程呈现非线性、高维度和时变等特点,以及过程的质量变量难以实时监测的问题,利用核主元分析方法(Kernel Principal Component Analysis,KPCA)对采集的过程数据进行非线性的降维处理;基于降维后的主成分重构输入样本集,利用Bagging算法获得若干子样本集,并建立相应的GPR局部模型;最后根据贝叶斯后验概率计算得到各局部模型的权重,进行融合输出。通过对污水处理过程的仿真实验,验证了所提方法具有良好的预测精度与泛化能力。2)考虑常规的集成学习方法仅从单一的样本或变量维度出发,没有充分利用样本所包含的两个维度信息,提出一种分层集成的软测量建模方法。该方法采用高斯混合模型(Gaussian Mixture Model,GMM)将过程数据划分为不同的操作阶段,以捕捉过程的多阶段特征;并依据各辅助变量在主元空间上的贡献度,将各模态数据划分成若干子空间,建立相应的GPR模型,采用均值融合方式得到第一层集成输出,即各模态下的局部预测输出;进一步采用后验概率对各模态局部预测进行融合,得到第二层集成输出。通过对脱丁烷塔过程和青霉素发酵过程的仿真实验,验证了所提方法的有效性。3)进一步考虑工业过程中有标签样本较少,大量的无标签样本被直接丢弃的问题,基于半监督Tri-Training方法和集成学习思想,提出一种新的GPR软测量建模方法。首先,利用Bagging算法将无标签样本集划分为三个子样本集,并采用有标签样本训练三个回归模型;其次,基于一种置信度指标对无标签样本计算其相应的指标值,选择满足置信度要求的无标签样本进行标注,并将此标注后的样本添加到对应的有标签子样本集中;最后,对扩充后的三个有标签数据集建立GPR模型,采用权值对结果进行融合。通过对脱丁烷塔过程和混凝土抗压强度的仿真实验,对所提方法的有效性进行了验证。