质谱代谢组学数据处理的研究

来源 :山东中医药大学 | 被引量 : 0次 | 上传用户:zhuzhutoutuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的对代谢组学数据分析中数据预处理、模式识别、差异变量筛选方法进行研究,建立代谢组学数据分析的流程。方法1.数据预处理:采用欧式距离、马氏距离、聚类分析算法分别检测离群点,删除共同的离群点作为原始数据。采用K近邻法、连续K近邻法、多重插补法填补缺失值,采用正态标准化、极差标准化、mapstd标准化方法进行数据预处理,以正态性检验、模型拟合能力、预测能力、分类效果对预处理方法进行评价。2.模式识别:分别采用主成分分析法、偏最小二乘判别分析法、支持向量机、人工神经网络方法进行模型评价,综合评价实验数据的可用性。3.差异变量筛选:以p值、倍数变化值(FC)所得火山图结合偏最小二乘判别分析VIP值综合筛选变量,发现共同变量作为差异变量。根据筛选出的变量即可查找潜在生物标志物。结果1.数据预处理通过欧式距离、马氏距离、聚类分析算法检测离群点,删除共同的1个离群样本后进行后续数据处理;通过偏最小二乘法对K近邻法、连续K近邻法、多重插补法填补缺失值后的数据进行模型拟合能力、预测能力、分类效果检验,三种方法差别较小,直观分析确定多重插补法;正态标准化、极差标准化、mapstd标准化方法的评价结果显示,极差标准化后模型的拟合能力、预测能力和分类效果较好;正态性检验表明,未经标准化处理的数据不符合正态分布,极差标准化后,数据呈现正态分布,可以进行进一步分析。2.模式识别非机器学习的主成分分析、偏最小二乘判别分析以及机器学习的支持向量机分析、人工神经网络分析的拟合能力均好;机器学习对原始数据是否符合正态性要求不高,而非机器学习要求原始数据符合正态分布;从分类效果和预测效果看,偏最小二乘判别分析明显优于主成分分析,支持向量机数据分析和人工神经网络的分类与预测能力较好。3.变量筛选以p值、倍数变化值(FC)所得火山图分析筛选出165个差异变量,偏最小二乘判别分析VIP值筛选出268个差异变量,最后选取出两种方法中共同的差异变量96个,作为潜在生物标志物。结论建立了“预处理-模式识别-变量筛选”的代谢组学数据的分析流程:离群点删除-多重插补法-极差标准化-偏最小二乘判别分析-综合变量筛选以及离群点删除-支持向量机分析/人工神经网络-综合变量筛选。非机器学习算法对数据的预处理要求较高,偏最小二乘判别分析的拟合、分类、预测以及差异变量筛选的能力较强,机器学习算法对数据预处理要求不高,分类和预测能力较强。因此在模式识别中非机器学习算法和机器学习算法可以共同应用,从而相互印证。
其他文献
目的探究分析脑血管意外事件与心电图改变的关系,以期为提高临床诊疗效果提供有效依据。方法选取自2010年6月至2012年5月在我院接受治疗的脑血管意外事件患者110例,对其临床
随着煤炭企业生产机械化程度的提高和产品结构的调整,特别是技术和管理的进步,企业竞争的焦点主要集中在人才的竞争上,企业为了获得人力资源所做的投资被称为人力资源成本,它
目的观察开窗减压术对颌骨囊性病变的治疗效果。方法临床中选取28例颌骨囊性病变病人,行开窗减压术6~18月,再用小手术的方法彻底刮除囊性病变后随访6个月~3年。结果通过曲面
在众多抗高血压药物中,卡托普利和尼群地平为抗高血压一线药物.但应用单一药物有时不够理想,剂量过大又可增加不良反应.卡托普利和尼群地平小剂量联合应用,适合于各种高血压,
妊娠合并心脏病可危及母婴生命安全,可导致流产、早产、胎儿窘迫的发生以及小于胎龄儿和围产儿死亡率的增高。为了有效地降低孕产妇和围产儿的死亡率,必须加强孕期的护理和监测
一、煤炭市场诚信建设存在的主要问题在实际市场运作中,由于各种主客观条件的影响及对诚信概念理解的差异,煤炭交易活动中存在一些不诚信的现象,主要表现在以下五个方面:
在煤炭基本建设过程中,井巷工程是矿井建设的主要环节,是决定矿井建设工期和造价的关键,井巷工程造价在矿井总造价中占有重要地位.根据目前煤炭井巷工程竣工结算审计中存在的
<正>腋窝淋巴结转移是影响乳腺癌预后的重要因素之一,腋窝淋巴结清扫(ALND)是乳腺癌传统手术治疗中重要的组成部分[1]。自20世纪90年代以来,随着前哨淋巴结活检(SLNB)在乳腺外科
多普勒天气雷达由于其较高的时间和空间分辨率而成为气象业务领域中监测中小尺度对流天气系统的重要工具。天气雷达可以用于探测大气环境场的三维结构,但是目前我国大部分天
本文以沈阳市中南构件厂生产的构件为研究对象,主要针对预制构件的生产特点,在构件生产过程中各个阶段进行成本控制的研究,旨在优化生产过程中各阶段的成本,从价格方面来协助装配式建筑在市场上的有序发展推广。主要研究内容如下:材料采购阶段:分析影响采购阶段成本的因素,并提出合理的解决对策,制定出最优的采购策略,从而达到控制材料采购成本的目的。生产排产阶段:分析构件生产的每个工艺流程,找出影响构件生产成本的关