化学信息学新算法及在化学、生物与食品科学中的应用研究

来源 :兰州大学 | 被引量 : 11次 | 上传用户:jinhui4620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息科学、计算机科学与互联网的高速发展,一种新的交叉学科-化学信息学(Chemoinformatics)也迅速成长起来了。化学信息学是一门利用信息学的方法来解决化学的问题,同时得到有关化学本质规律的的学科。化学信息学的研究范围十分广泛,内容丰富,例如化学试验设计与优化、定量校正理论、分析信号处理、化学模式识别、模型与参数估计、人工智能等。化学信息学产生于科学家们对化学知识规律的不断需要的过程中。化合物结构与性质/活性定量关系(quantitative structure-property /activityrelationship,QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法是指将化合物的结构参数同其生物活性数据以一定的数学模型相联系起来的定量关系。QSPR/QSAR的研究最初应用于生物领域是为了适应合理设计生物活性分子的需要而发展起来的。由于计算机技术的发展和应用,QSPR/QSAR的研究提高到了一个新的水平,且日趋成熟,其应用范围也迅速扩大,研究涉及生物,化学,药物科学,以及食品科学等诸多学科。人们期望用一个成功的数学模型,能从分子水平上理解其微观结构同其宏观性质/活性之间的关系,根据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素,然后为设计,筛选或预测具有人们期望性质的化合物提供信息。化学信息学的发展为化学各分支学科的发展提供了多种解决问题的新思路,新方法。本学位论文主要对化学信息学研究中的一些新算法进行了探讨,并把这些新算法成功应用于QSAR/QSPR研究领域中。该论文共包括五章节内容,每一个章节的具体内容如下所示:第一章:简述了化学信息学的基本概念和研究现状,以及多种化学信息学算法,也详细讲述了化学信息学研究的分支之一——QSAR,包括QSAR演变历史,基本原理以及实现的步骤等等。第二章:主要讨论了Quantitative structure-retention relationship (QSRR)方法在多肽色谱保留行为预测的应用研究。具体内容如下:(1)基于线性和非线性建模方法对反相液相色谱(RPLC)的101种多肽保留时间进行了定量结构保留关系建模研究。最佳多元线性回归(BMLR)方法用来选择与保留行为最为密切的分子描述符,并建立线性模型。另外两种非线性回归方法(径向基函数神经网络(RBFNN)和投影寻踪回归(PPR))用来构建非线性模型。RBFNN和PPR模型的训练集的相关系数(R~2)分别为0.9787和0.9881;均方根误差(RMSE)为0.5666和0.4207。结果表明,RBF神经网络和投影寻踪回归将是蛋白质组研究中一种简单且有效的工具,并有望应用于其他类似的研究领域。(2)新颖的化学信息学方法—局部懒惰回归(LLR)首次应用于预测278个多肽在固定金属亲和色谱(镍柱)的保留行为研究。该工作分别用BMLR,PPR和LLR三种方法建立线性和非线性QSRR模型。最佳的LLR模型的训练集和测试集的R~2分别为0.9446和0.9252。该工作证明新颖机器学习算法LLR是一个非常有前途的研究工具,它可用于色谱保留行为研究领域,为协助设计和分离纯化蛋白质和多肽发挥一定的作用。第三章主要描述了QSAR方法在农业和食品科学领域的应用研究,具体内容如下:(1)三种机器学习方法:遗传算法-多元线性回归(GA-MLR),最小二乘支持向量机(LS- SVM),PPR用于100个稻瘟病抑制剂噻唑啉衍生物的杀菌活性研究。线性模型GA-MLR和非线性模型LS-SVM和PPR都得到了良好的预测结果,但非线性模型提供了更加精确的预测能力。结果表明,非线性LS-SVM和PPR方法可以更加准确地模拟噻唑啉分子结构与杀菌活性之间的关系,能够成为研究稻瘟病抑制剂良好的建模工具。此外,这项研究为稻瘟病抑制剂的设计和开发提供了一种新的,简单而且有效的办法,同时得到的与其密切相关的分子结构信息。(2)运用定量结构保留关系方法对藏红花内43种芳香组分的SPME-GC-MS保留时间进行了预测。应用最佳多元线性回归(BMLR)和投影寻踪回归(PPR)方法分别建立了线性和非线性模型,两种方法均得到了较好的结果:线性模型的训练集和测试集的相关系数(R~2)分别为0.9434和0.8725,非线性模型则给出了较好的预测结果分别为0.9806和0.9456。通过对模型的稳定性和预测能力的比较,可以看出非线性PPR方法可以较好的应用到SPME-GC-MS保留行为研究领域内,同时该工作又可以为其他植物和中草药的分离研究提供一种简便有效的方法。第四章主要讨论了定量构效关系在生命科学和医药研究领域内的应用,主要有以下几部分组成:(1)利用QSRR方法对55种药物在固相人工膜色谱内的保留指数进行了线性和非线性建模研究。在该工作中,线性BMLR方法被用来选取与保留指数最为相关的参数,同时建立线性回归模型;利用选取的描述符,应用PPR和LLR方法来建立更加准确的预测模型。通过模型对比,我们发现LLR作为一种新的建模方法,体现出较完美的预测能力,其训练集和测试集的预测结果为:复相关系数(R~2),0.9540,0.9305;均方根误差(RMSE),0.2418,0.3949。结果显示,新型LLR建模方法在QSRR方法研究中表现出了较好的预测能力,同时该方法定会成功的应用于其它类似的色谱研究领域内。(2)利用线性和非线性建模方法研究了80个N-羟基-a-苯磺酰乙酰胺(N-hydroxy-aphenylsulfonylacetamidederivatives,HPSAs)衍生物对三种类型的基质金属蛋白酶的抑制活性。其中线性BMLR方法用来选取关键的结构参数,同时建立线性模型对所选化合物的抑制活性进行了预测;然后以全局格式搜索PPR方法利用选取的参数建立非线性回归模型。最终,线性和非线性模型均能提供较为满意的预测结果。在该工作中,非线性PPR方法首次与格式搜索(GS)方法相结合并成功应用于对HPSAs的抑制活性的建模研究,得到了令人满意的预测结果。该方法的成功为其他模型参数的优化与选取提供了一种捷径。(3)利用线性回归方法和非线性回归方法-格式搜索支持向量机(GS-SVM)和PPR方法对MT3褪黑激素结合位点的亲和性进行了研究。在该工作中,遗传算法被用来选取与研究对象最为相关的结构参数,并建立线性回归模型对MT3褪黑激素结合位点的亲和性进行预测;利用选取的五个结构变量,采用非线性回归方法GS-SVM和PPR方法建立更加准确的模型。通过模型对比,我们发现非线性PPR方法能够对MT3褪黑激素结合位点的亲和性具有比较准确的预测能力。该方法的建立,为设计和开发新型MT3褪黑激素的新型配体提供了一种新型的研究方法。第五章:QSAR方法在化学感应系统相对灵敏度的预测研究。在本章中,BMLR,SVM和LLR三种方法用来完成64种VOCs的气味检测阀值(ODTs)和鼻腔辛辣味阀值(NPTs)相对敏感性的QSAR建模研究,所得的预测结果和相应的实验数据基本吻合。相比之下,LLR方法能够获得更好的预测能力,因此,它在QSAR研究中是一种有效的机器学习算法。此外,本研究还确定了一些重要的分子结构信息,它们与VOC的相对敏感性密切相关。这些信息可以用来选择或制造一些新型的化学传感器,同时也说明LLR方法是一种很有前途的QSAR建模方法,可用于其他类似的化学传感器建模预测研究。
其他文献
卫生事业的改革和发展离不开一支高素质的职工队伍,培养职工的主人翁意识,加强民主政治建设,创建"职工之家",彰显工会优势、展现工会个性的共振点、结合点和切入点,构建和谐
<正> 先秦时期,楚国以其辉煌的历史,灿烂的文化为中国古代文明史作出了重大的贡献。特别是近十几年的楚文化考古的新发现,不断赋于楚国历史以新的韵味,激发人们对它产生日益
艺术社团是校园文化的重要组成部分,是开展学生思想政治教育不可或缺的隐性课程和创新载体。伴随着我国各类学校办学模式的不断扩大,办学理念的不断成熟,学校艺术社团呈现蓬
为落实《中华人民共和国国民经济和社会发展第十二个五年规划纲要》中提出"推动自主品牌建设,提升品牌价值和效应,加快发展拥有国际知名品牌和国际竞争力的大型企业"的要求,
随着微电子技术、通信技术和计算机技术的快速发展,无线定位作为传感网和物联网的重要应用越来越受到人们的关注,特别是在复杂的室内环境下,与此相关的理论和技术在学术界也
<正> 为配合鄂州市集装箱货场的建设工程,92年9月,鄂州市博物馆组织考古专业人员对五里墩六朝墓地进行了一次抢救性发掘,共发掘两晋时期的墓葬十一座,出土了一批珍贵文物(见
长白山区拥有十分丰富的土地资源、森林资源、水资源、动植物资源和旅游资源等。本文对长白山区自然资源开发利用现状进行评述,分析了自然资源的大规模开发利用引起的生态环
商标的最重要功能是识别来源。商标的价值受商品声誉影响的程度较大。商标标示的商品声誉越高,商标价值也越大。高价值的商标一旦与其标示的商品割断联系,商标的价值可能由此
目的:观察甲钴胺联合硫辛酸、法舒地尔治疗糖尿病周围神经病变(DPN)的临床疗效。方法:将108例糖尿病周围神经病变患者随机分为两组。对照组54例单用甲钴胺治疗,观察组54例采