论文部分内容阅读
现代光度分析仪器的出现为我们快速的提供数以千计甚至万计的波长。因为这些明显的特征,这些化学样品包含了高维的和一些线性的数据变量,相比较众多的数据变量,与因变量相关的数据变量个数有限。这样会影响模型的预测能力或是造成过拟合现象。在光度分析中,消除不必要的冗余的背景或是噪声干扰是必要的。所做波长选择不仅有利于模型的稳健性,还可以更好的解释他们之间的线性组成。
在多组分分析中,特别是结构相似的物质,由于各组分光谱严重重叠以及组分之间的相互干扰,需要建立稳健的预测模型。偏最小二乘常用来解决多重相关性问题,并且是一种有效的最大利用有效信息的方法。然而,大量的实验结果表明,即使应用偏最小二乘方法,消除光谱中不利于模型建立的无关信息的变量仍是非常重要的,波长选择有利于提高偏最小二乘建模的预测能力,缺乏变量选择会破坏其稳健性。
本论文提出了改进的粒子群优化算法用于波长选择,并将其用于邻、间、对硝基苯酚和头孢菌素类物质的含量测定。结果表明,经过粒子群优化波长选择后的结果要优于全波长建模,具有模型稳健和可靠性。
在多组分分析时组分间的相互作用存在非线性特征,线性方法不能得到满意的结果。由于是小样本的机器学习问题,采用人工神经网络需要选取相关自变量而受一定限制,易于产生过拟合问题,上述两种情况都会产生误差。在本论文中,我们试用最近新发展的,既能限制过拟合又能拟合非线性数据的支持向量机。并将结果与偏最小二乘算法进行比较,结果表明支持向量机算法的预报误差较小,表明支持向量回归是一种多变量校正的有用方法。