蛋白残基可溶性预测及基因表达数据分析方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:setsail2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的迅速发展,生物学研究领域发生了巨大的变化。生物信息学是结合了生物学和信息学技术的一门新兴交叉学科,是将信息技术应用于生物数据进行存储、管理、分析的学科。它不仅是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。系统生物学和生物信息学相同,是伴随着生物学、信息技术的发展而诞生的交叉学科。系统生物学和人类基因组计划有着密切的关系,正是在基因组学、蛋白质组学等新型大科学发展的基础上,孕育了系统生物学。系统生物学是研究一个生物系统中所有组成成分(基因、mRNA、蛋白质等)的构成,以及在特定条件下这些组分间的相互关系的学科。进行系统生物学的研究,仅仅依靠传统生物学手段已经远远不能满足要求。数学,物理学,信息学的发展为系统生物学提供了有用的技术手段。而大规模计算机的出现更使得大规模数据的计算成为现实。系统生物学将是21世纪医学和生物学的核心驱动力。生物信息学和系统生物学的发展将不仅对相关基础学科起巨大的推动作用,还将对农业、医药、卫生、食品等产业产生巨大的影响。当前生物信息学和系统生物学的一个重要发展方向是发展基于机器学习方法的数据分析技术。相对于传统的试验方法,机器学习方法具有快速、自动的优点,尤其适用于高通量大规模生物数据分析。本文主要研究内容如下:(1)从蛋白质一级氨基酸序列对蛋白质的三维空间结构进行预测是生物信息学研究的重点、难点之一。作为一种可行的辅助手段,对蛋白质氨基酸残基可溶性的预测引起了广大生物信息学家的关注。蛋白质可溶性表征蛋白质残基在三级结构中与溶剂接触的程度,是反映蛋白三级结构以及功能位点的主要特征。本文采用支持向量机方法对蛋白质氨基酸残基可溶性进行预测。按照一定的阈值将蛋白质氨基酸残基可溶性分成两类(内部/表面)或三类(内部/中间/表面),并选择不同窗宽和参数对数据进行训练和预测,以确保得到最好的分类效果。在不同数据集上和其他已有方法进行比较:对同一数据集不同分类阈值的预测结果显示,支持向量机方法对蛋白可溶性的整体预测效果好于神经网络和信息论的方法。其中,对两类数据的最优分类结果达到79.0%,对三类数据的最优分类结果达到67.5%,表明支持向量机是蛋白残基可溶性预测的一种有效方法。(2) DNA微阵列技术是一种近年来发展起来的新型高通量生物检测技术。微阵列技术能够在基因组规模上对基因表达谱、患者基因型、药物代谢、疾病的发生和发展过程进行快速和定量的分析,这种技术使科学家在单次试验中就可以分析某种生物的整个基因组。因为各种原因,如图片解析度不够、图象损坏都会造成微阵列表达谱数据的缺失,影响后续的数据分析。本文提出了一种新的基于正交输入编码和支持向量回归方法的基因表达谱缺值估计方法。该方法采用支持向量回归估计缺值,并且采用正交向量编码的方法解决在某些表达谱数据的行中具有多个缺失值的问题。在六个不同的数据集上和其他已有方法进行比较。由于正交输入编码方法使得计算中最大程度考虑了整个基因表达谱的信息,并且支持向量回归方法是一种具有坚实的统计学习理论基础的机器学习方法,保证了该方法在各个数据集上均有较好的估值性能。当数据中混有不同程度噪声时,该方法也表现出较好的鲁棒性。因此该方法在基因表达谱缺值估计方面是一种有效的方法。(3)由DNA微阵列实验获得的基因表达谱中蕴含着丰富的生物信息,如何从表达谱数据中发现这些生物信息,构建相关的生物网络体系,是系统生物学研究关注的问题之一。本文使用贝叶斯网络结构推断的方法,利用基因表达谱数据进行调控网络重构的工作。分别采用离散和连续数据作为输入数据,在结构推断中采用不同的近似方法对目标贝叶斯网络拓扑结构进行推断。在酿酒酵母基因的表达谱数据集上的结果表明,不同近似方法可以获得类似的网络拓扑结果。结合已知的生物学信息,分析所获得的部分网络,结果表明,贝叶斯网络结构推断的方法可以获得具有生物学意义的网络拓扑结构,可以为生物学家提供实验设计的依据。
其他文献
1944年国民党政府《专利法》是在特定历史条件下颁布的中国历史上第一部现代意义的专利法;它完善了旧中国知识产权法,对台湾地区和大陆地区的专利法发展产生了重要影响。它贯彻
目的了解天津市宾馆/酒店的卫生基本状况和主要健康危害因素,为加强公共场所卫生管理和疾病防控提供科学依据。方法 2017—2018年每年2次对18家宾馆/酒店的室内空气和公共用
目的:观察西格列汀联合门冬胰岛素30治疗2型糖尿病的有效性及安全性。方法:将口服降糖药治疗效果差且病程较长的2型糖尿病患者80例随机分为实验组和对照组各40例。实验组给予
针对行人跌倒装置跌倒判断率低,成本高,便捷性不强等问题,提出一种改进灰色模型预测跌倒解算算法。算法利用迭代扩展卡尔曼滤波法(iteration extended Kalman filter,IEKF)将
在现代汉语中, "傩"这个字早已被列入生僻字的行列。事实上,在传统的华夏文明中, "傩"是历史久远并广泛流行于汉民族中的具有强烈宗教和艺术色彩的社会文化现象。他起源于汉
以陶粒为填料,对生物过滤塔降解BTEX的行为进行了研究.结果表明,在不同氮源浓度条件下,4种物质的生物降解程度不同,生物降解最优的氮源浓度为2.0 g·L-1,而且也表明苯系
随着音乐教育专业的蓬勃发展,音教队伍的不断壮大,传统的钢琴教学“一对一”的授课方式.因教学资源的紧缺,面临着严峻的挑战。为解决这个千盾,文章提出了音乐教育专业钢琴课可采用
实施"卓越计划",校企共建"工程实践教育中心"取得了初步成效,但在企业的工程实践教育中心,存在着交通不便、时间限制、工学矛盾、企业教师指导不深入、企业项目实践效果不佳等问
冰片为龙脑香的树脂和挥发油的加工成品,味辛苦,性微寒,具有开窍醒神、清热止痛的功效.现代药理学研究认为其具有止痛、防腐、抗炎及镇静作用.
期刊
当前旅游业蓬勃发展,许多学者都从各个角度研究、分析旅游开发对当地社区的影响。本文以贵州省安顺市屯堡地区为个案,从社区环境、当地的人等角度,论述屯堡旅游开发对当地社