【摘 要】
:
必要基因是维持物种存活、发育和繁殖所必需的最小基因集。由于对必要基因的研究具有非常重要的理论与实际意义,因此鉴定这类基因一直都是系统生物学与合成生物学的重要研究内容。先前的研究主要通过实验技术将基因随机或者系统地失活,进而基于物种的存活与否评价它们的必要性(例如:单基因敲除、RNA干扰、转座子突变等)。然而由于时间与资金的限制,此技术在许多物种中一时还难以实现(例如在基因组水平识别人类的必要基因集
论文部分内容阅读
必要基因是维持物种存活、发育和繁殖所必需的最小基因集。由于对必要基因的研究具有非常重要的理论与实际意义,因此鉴定这类基因一直都是系统生物学与合成生物学的重要研究内容。先前的研究主要通过实验技术将基因随机或者系统地失活,进而基于物种的存活与否评价它们的必要性(例如:单基因敲除、RNA干扰、转座子突变等)。然而由于时间与资金的限制,此技术在许多物种中一时还难以实现(例如在基因组水平识别人类的必要基因集)。鉴于此,人们开始使用计算技术来辅助实验技术预测物种的必要基因,并且已证明在细菌与真菌上的应用具有可靠性。但是随着计算技术的广泛应用,一些新的问题开始浮现出来,例如如何筛选合适的训练集与特征参数。为了解决这些问题,本论文从以下三个方面开展研究。首先,本论文研究了训练集筛选对计算模型预测精度的影响,并提出四个筛选标准来提高预测精度。其次,本论文提出了一个新的用于基因必要性分类的方法,它能够显著提高计算技术预测必要基因的准确性与稳健性。最后,本论文在基因组水平识别了人类必要基因集,并且将其用于识别新的药物靶点的探索。第一部分:通过贝叶斯分类器对21个物种的必要基因进行相互预测与验证,本部分研究了训练集筛选对计算模型预测精度的影响。研究结果表明:1)选择不同的训练集会显著影响模型的预测精度。2)训练集必须至少占总基因集的10%才能够维持模型精确的预测。3)整合的训练集比单一训练集所构建的模型预测效果更优。4)基于我们提出的训练集筛选标准选择的训练集预测效果显著优于随机选取。结论:本研究针对训练集筛选提出四条标准:a)训练集中的基因必要性必须可靠;b)训练集和预测集中相关的生长条件需要保持一致;c)用来作为训练集的物种应该与被预测的物种尽量具有较近的亲缘关系;d)训练集和预测集对应的物种应该具有相似的表型和生活方式。第二部分:基于贝叶斯分类器,Logistic回归以及遗传算法,本研究提出了一个基于特征参数的加权贝叶斯模型(FWM),它能够显著提高预测精度。研究结果表明:1)基因特征间的共线性效应和物种间不同甚至相反的基因特征与基因重要性的相关关系会显著地影响模型的预测精度。2) FWM比其他分类器(即贝叶斯、支持向量机、Logistic回归三个分类器)有更好的性能(准确性、稳健性、适应性)。3)与普通贝叶斯分类器相比,FWM的预测精度能够提高2%9%。结论:筛选用于构建必要基因预测模型的特征必须要非常慎重。并不是所有与基因重要性相关的特征都能够提高预测精度,相反,选择不恰当的特征会导致预测模型降低预测精度。FWM不仅能用于预测必要基因,还能用于其他的分类研究(例如用来识别疾病基因)。第三部分:基于两种类型的计算模型,本研究预测了7000个人类必要基因,然后通过与肿瘤必要基因以及致病菌的必要基因进行比较,我们识别了与治疗癌症相关的55个药物靶点,以及治疗与致病菌感染相关疾病的2046个药物靶点。研究结果表明:1)本研究识别的必要基因集具有较高的准确度(>0.73)。2)人类必要基因显著富集在一些核心的生物过程,例如:转录调控,大分子代谢以及binding活性。3)疾病基因中必要基因的比例显著超过背景水平,而且疾病基因和必要基因与其他基因相比要遭受更强的选择压力。结论:通过两类计算模型识别的人类必要基因集是非常可靠的。这项数据在识别潜在药物靶点上具有潜在的应用。总之,本论文综合运用计算机模拟、比较基因组、统计学、数据挖掘和生物信息学的分析方法,系统地研究了计算模型在必要基因预测上的应用。本论文为在基因组水平上预测必要基因提供了经验上的指导,为了解生命的最小基因集以及揭示新的药物靶点提供了新的研究思路。本论文提出的计算方法有望能够应用于人类基因的功能注释和人类疾病的诊断。
其他文献
随着科学的发展,非线性现象出现在自然科学与工程技术等许多领域,对应的非线性模型也变得复杂多样,因此描述这些模型的非线性偏微分方程成为重要的研究课题.非线性偏微分方程有许多求解方法,Backlund变换法为其中一种,一方面它可以由方程的已知解导出另一个解,如果重复应用可求出此方程的多孤子解,另一方面它还可以由已知方程的解推出另一个方程的解.因此Backlund变换是求解偏微分方程行之有效的方法.本文
高效液相色谱作为生物大分子分离纯化的重要方法,近年来在蛋白折叠方面也显示出其独特的魅力,并且已经发展成为蛋白折叠液相色谱法,对很多重组蛋白药物实现了成功复性。蛋白折叠液相色谱法的特点是蛋白折叠是在固定相表面进行的,因此固定相的性质对蛋白的折叠起到了很大作用。本实验室近期合成的具有离子交换和疏水两种机理的二维色谱填料,仅用一根色谱柱,就可以实现HIC-IEC或IEC-HIC的二维色谱分离效果,这种新
根瘤的产生是一个复杂的生物学过程,包括根瘤菌侵染植物根部细胞,植物根部细胞分化,根瘤的成熟和固氮。在结瘤过程中,宿主植物根部细胞大量基因差异表达,构成复杂的基因表达调控网络。结瘤素基因是在结瘤过程中特异表达或表达增强的豆科植物基因。目前,豆科模式植物蒺藜苜蓿(Medicago truncatula)和日本百脉根(Lotus japonicus)中的许多结瘤素基因已经被分离鉴定,但是对于豆科树种,如
本文主要运用常微分方程定性与稳定性理论以及分支方法,研究了两类具功能反应的食饵-捕食模型,并讨论了该模型的动力学性质。全文内容共分为四章,每个章节的主要工作如下:第一章引言,先介绍无时滞的食饵-捕食系统发展趋势及研究现状,再引入具有单时滞的食饵-捕食系统的发展趋势及研究现状,然后引出本文的研究内容,最后给出本文的主要研究工作及章节安排。第二章研究一类无时滞的具功能反应的食饵与捕食系统,利用微分方程
目的观察电针刺激足阳明胃经穴位对外伤性脊髓损伤(TSCI)大鼠受损脊髓Ca MKII mRNA及蛋白表达、大鼠神经功能恢复的影响。方法将96只SD大鼠按照不作电针干预、作督脉穴位电针刺激、作足阳明胃经穴位电针刺激3种干预方式平均分为损伤对照组、电针对照组、胃经电针组,每组平均分为1、2、3、4周亚组,钳夹法复制TSCI大鼠模型,对比各组各时间点BBB功能评分、采用qRT-PCR及Western b
昆虫免疫反应包含由IMD和Toll通路介导的抗菌肽的表达、酚氧化酶催化的黑化反应以及血细胞介导的免疫反应。家蚕被驯化已经5000多年,为中国重要的经济产业之一。并且家蚕是首个完成全基因组测序的鳞翅目昆虫。因此,家蚕是昆虫学研究的重要的鳞翅目模式之一。铁离子是一个重要的元素,为细胞代谢所必需,参与细胞和机体的多个代谢途径和反应。细菌侵染影响铁离子在昆虫体内的含量与分布,这为理解细菌和昆虫的相互作用提
植物叶片是植物吸收光能,进行光合作用的重要器官。植物叶器官的发育具有时间和空间上的高度特异性,是复杂的生物学过程。叶片的发育机理研究对于生产应用具有重要的理论意义。拟南芥叶形突变体是研究叶片发育分子机理的理想材料。本研究从拟南芥激活标签突变体库中筛选到两株叶形突变体abs5-1D和abs7-1D,并证明突变体的叶片表型是分别由At1g68810和At2g32460的表达量升高导致。光合作用是植物将
本研究以增强型绿色荧光蛋白基因(EGFP)为靶标,分别设计构建茎部长度为21 bp、27 bp和29 bp的shRNA表达载体,通过转染细胞和显微注射对不同茎部长度的shRNA表达载体在小鼠细胞及个体水平的干扰效应做一系统的评估并优化条件,以期建立、提高并完善小鼠基因沉默技术体系,为小鼠个体水平的RNA干扰研究提供基础性数据和资料。1.从13.5 d的绿色荧光小鼠胎儿中分离培养成纤维细胞,胰蛋白酶