论文部分内容阅读
随着基因组研究的发展,人类进入了后基因组时代,生物学数据积累出现了前所未有的飞跃,阐明这些数据的意义因此成为一项巨大的挑战。生物学家需要对细胞及组织进行不断的了解,而我们则需要进行很多诸如对数据进行组织,分类,解析等工作,因为这些也是这项挑战的重要组成部分。
对数据进行解析不仅仅是抽象的字符串的解析,由于在这些碱基或氨基酸的字符串后包含着分子生物学所有的复杂性,而在所有的方法中,断定分子的结构或功能的最可靠的方法是生物试验,但得到生物数据比决定其结构功能要复杂得多。因此当下最迫切的工作就是要发展计算的方法,从序列本身得到数据的生物学信息。
目前国际上发展起来了很多基因识别软件,但大多数软件不能识别完整的基因结构。本文基于统计学习理论-支撑向量机,构建了一个完整基因的识别软件。本文分别引进了两种特征提取方法,一个是与随机序列相比求相对差异的方法,并给出了相应的算法;另一个是基于变长度马尔科夫链求生成序列的概率的方法,也给出了相应的算法,并基于最大差异给出了变量提取的阈值。这两种方法突破了原来对DNA序列的计算编码方式,避免了传统方式由于错位读取使转码的数列与真实的DNA序列对应不上而出现错误的结论。我们根据找到的特征片断序列,将DNA序列映射到欧式空间,形成了DNA序列和欧式空间向量的一一对应关系,在欧式空间中进行基因和基因间区的识别。同时,从数学分析的角度对用到的核函数进行了讨论,根据讨论结果的启示,对我们选取的核函数根据交叉验证进行了参数选取,并取到了分类最好的参数。对基因和基因间区的识别准确率在染色体水平上分别达到89%和87%。
有文献表明,选择性内在外显子具有几个特殊的特征。1、在转录过程中选择性内在外显子倾向于保持阅读框架不变,所以长度基本上能被3整除。2、这种外显子在转录过程中会产生跳跃,所以与其它外显子相比序列长度比较短。3、其上下游序列在人和大鼠之间比较保守。本文根据内在外显子的长度、长度能否被3整除以及保守率,结合我找到的调控序列,用支撑向量机技术构建了分类器模型。该分类器能有效的在基因组序列中识别选择性内在外显子,识别准确率达到了92%。
针对在样本类别不知道的情况下DNA序列中功能模体和背景的分类问题,本文引进了两个统计模型。这两个模型均把模体和背景看成是由独立同分布的随机变量产生的,只是模体和背景所用的参数不一样。其中一个模型将模体起始位点看成丢失数据;另一个模型则用滑动窗口的方法将序列拆成不知类别的样本,将类标签处理成丢失数据。然后又分别引进了Gibbs抽样和EM算法,在要解决的问题、模型和模型的解之间建立了一个桥梁,形成了模体搜索算法。该算法最后通过程序实现,找出了13个选择性内在外显子的调控模体。
蛋白质的调控网络分析是目前蛋白质组研究的重点。本文对凝血系统的凝血因子和蛋白C之间的相互作用调控网络进行了分析,在凝血酶生成的背景下,着重讨论了蛋白C的动力学作用。我们建立了一个比较复杂的动力学模型,通过动力学分析和数值模拟,得到了关于蛋白C动力学作用的一一些结论,如果APC少量缺乏,对血液凝固的影响不大,大剂量的APC缺乏会导致血流不止。而且发现凝血系统中存在震荡这样一个有趣的现象,并且发现这种现象是由高浓度的蛋白C反馈抑制导致的。模型虽然与实际应用之间有一定的距离,但具有重要的预测价值。