论文部分内容阅读
目的对代谢组学数据分析中数据预处理、模式识别、差异变量筛选方法进行研究,建立代谢组学数据分析的流程。方法1.数据预处理:采用欧式距离、马氏距离、聚类分析算法分别检测离群点,删除共同的离群点作为原始数据。采用K近邻法、连续K近邻法、多重插补法填补缺失值,采用正态标准化、极差标准化、mapstd标准化方法进行数据预处理,以正态性检验、模型拟合能力、预测能力、分类效果对预处理方法进行评价。2.模式识别:分别采用主成分分析法、偏最小二乘判别分析法、支持向量机、人工神经网络方法进行模型评价,综合评价实验数据的可用性。3.差异变量筛选:以p值、倍数变化值(FC)所得火山图结合偏最小二乘判别分析VIP值综合筛选变量,发现共同变量作为差异变量。根据筛选出的变量即可查找潜在生物标志物。结果1.数据预处理通过欧式距离、马氏距离、聚类分析算法检测离群点,删除共同的1个离群样本后进行后续数据处理;通过偏最小二乘法对K近邻法、连续K近邻法、多重插补法填补缺失值后的数据进行模型拟合能力、预测能力、分类效果检验,三种方法差别较小,直观分析确定多重插补法;正态标准化、极差标准化、mapstd标准化方法的评价结果显示,极差标准化后模型的拟合能力、预测能力和分类效果较好;正态性检验表明,未经标准化处理的数据不符合正态分布,极差标准化后,数据呈现正态分布,可以进行进一步分析。2.模式识别非机器学习的主成分分析、偏最小二乘判别分析以及机器学习的支持向量机分析、人工神经网络分析的拟合能力均好;机器学习对原始数据是否符合正态性要求不高,而非机器学习要求原始数据符合正态分布;从分类效果和预测效果看,偏最小二乘判别分析明显优于主成分分析,支持向量机数据分析和人工神经网络的分类与预测能力较好。3.变量筛选以p值、倍数变化值(FC)所得火山图分析筛选出165个差异变量,偏最小二乘判别分析VIP值筛选出268个差异变量,最后选取出两种方法中共同的差异变量96个,作为潜在生物标志物。结论建立了“预处理-模式识别-变量筛选”的代谢组学数据的分析流程:离群点删除-多重插补法-极差标准化-偏最小二乘判别分析-综合变量筛选以及离群点删除-支持向量机分析/人工神经网络-综合变量筛选。非机器学习算法对数据的预处理要求较高,偏最小二乘判别分析的拟合、分类、预测以及差异变量筛选的能力较强,机器学习算法对数据预处理要求不高,分类和预测能力较强。因此在模式识别中非机器学习算法和机器学习算法可以共同应用,从而相互印证。