论文部分内容阅读
从20世纪90年代开始,全球已进入大数据时代,非线性系统分析面临着前所未有的数据爆炸问题,在低维可行的算法将随着过程变量的增多,计算复杂度呈指数增长,而泛化能力变差,导致模型的维度灾难问题。对这种高维数据的处理,一种直观的思路就是选择并保留一些重要变量(变量选择),而面对复杂的非线性工业过程,原有过程变量之间往往具有非线性、冗余关联、时滞相关等特性,使这种变量选择变得困难;另一种有效的办法是通过原有变量的某种线性/非线性组合来代替原有变量集,通过信息的压缩提取(特征提取),达到降维的效果,但变换后的矩阵是过程变量的某种数学映射,不再具备物理意义,仍然不能从本质上揭示众多过程变量对回归/判别模型的重要性。论文将变量选择和特征提取两类方法的研究思路融为一体,借助于核方法在特征提取方面的优势,在变换后的核特征空间中提出非线性系统的变量选择方法,取得的研究成果如下: ①核主成分分析是目前最常用的特征提取方法之一,但非线性过程数据以内积运算隐式映射到特征空间后,维度远远高于原有输入变量的维数,增加了计算的复杂度。论文将现有的单核函数改进为多个核函数的线性加权组合,通过交叉验证,确定核函数的类型和参数,构建多核主成分分析(MKPCA)的特征空间降维方法。通过对模型阶数未知的非线性静态、动态系统的回归分析发现,相比主成分分析、单核主成分分析,论文所提方法能更有效地降低特征空间的维数、同时保证约简后模型具有较好的精度及泛化能力。 ②所提MKPCA方法虽然能够降低特征空间的维数,但是无法确定一个充分代表数据集结构特征的去冗余的非线性原始变量子集。为此,论文提出一种结合核独立成分分析KICA与虚假最近邻法FNN的非线性系统变量选择方法。主要利用核函数将原始非线性数据映射到特征空间的线性状态,然后采用独立成分分析消除因子之间的多重共线性,构建出正交的核特征空间,从而运用虚假最近邻点法,依次计算原有变量在 KICA空间中投影前后相似性变化,以此判断各过程变量对因变量的重要程度。论文以某化工企业生产工艺的优化问题为例,从影响其工艺过程的11个变量中筛选出3个作为工艺优化的首选参数,经回归分析表明:精简后,HCN转化率的预测误差为0.67%,精度可靠,为企业的工艺升级提供明确的优化目标。 ③所提KICA-FNN方法仅考虑所选过程变量保持独立的问题,在某些非线性判别问题中,所选变量子集应该能够对主导变量具有最佳的解释能力。论文提出一种结合核偏最小二乘KPLS与FNN的非线性系统变量选择方法。并以两种典型的分类模型为例进行数值验证,说明该方法可确定有效的输入变量子集,从根本上选择与判别模型紧密相关的输入变量,直接降低模型的维度,同时提高模型的预测精度及可靠性。 ④所提KPLS-FNN方法考虑了所选过程变量对因变量的解释能力,为进一步考虑所选变量集能够使判别模型类间数据最远、类内数据紧凑,提出一种结合多核最优 Fisher判别与 FNN的非线性系统变量选择方法。并以实际化工 Tennessee Eastman过程存在的两类非线性故障分离问题为例,利用所提方法从众多的53维过程变量中确定出5维变量子集,故障识别的正确率从全模型的72.12%提高到94.55%。 ⑤针对过程变量维数高、样本数量少的非线性系统判别分析将会出现的方程不适定问题,论文提出基于核梯度向量的小样本系统变量选择方法。首先,计算所有训练样本到支持向量的梯度,依据各指标在坐标轴上的投影和的大小,对各指标进行重要性排序,约简出测试正确率最高的指标组合,再进行变量选择,解决高维问题的同时,通过结构风险最小化,实现在小样本数据下的变量选择和模式分析。以矿井通风安全评价系统的安全评价为例,对16个指标下仅搜集到的21组数据进行实例研究,提出两种精简方案,分别将指标降到5个和2个,经验证精简后的两种模型评价结果有效。