论文部分内容阅读
生物信息学是信息科学与生命科学的交叉学科,随着生物技术和计算机技术的迅猛发展,生物信息学已经成为目前最为活跃的新型学科之一。剪接是基因转录过程中的一个重要步骤,其得到的序列直接决定了翻译的产物——蛋白质,而选择性剪接机制的存在,使得同样的基因可以得到不同的蛋白质产物,从而导致生命的多样性。剪接和选择性剪接机制的研究为我们理解基因的表达提供重要帮助,已成为目前生物信息学研究的一个主要方向。本文对剪接和选择性剪接的信号序列以及相关特征进行了深入地分析和研究,其中主要工作和创新之处包括:(1)编码区剪接位点识别的研究。剪接序列分析的一个重要目标就是精确地识别出基因序列中的剪接位点,包括供体位点和受体位点。本文采用隐Markov模型作为剪接位点识别系统的主要模型,根据剪接位点信号序列中碱基之间的相关性,分别构建了供体位点信号和受体位点信号的识别模型。因为仅仅依赖于位点信号的保守信息还不足以精确地识别出剪接位点,所以用2阶隐Markov模型来对剪接位点两侧的外显子序列和内含子序列分别进行建模,结合序列模型和信号模型,最后得到剪接位点识别的总体模型。利用实际的人类基因数据,本文对剪接位点识别模型进行了验证,其识别结果达到了目前国际上同类优秀软件的水平。(2)非翻译区剪接位点识别的研究。基因非翻译区在基因转录的过程中也进行了剪接,其外显子保留在转录物中,但是在翻译的过程中并不被翻译成氨基酸。正是由于非翻译区的内含子和外显子均为非编码序列,剪接位点两侧的序列不存在编码到非编码的状态转换,所以非翻译区剪接位点的识别一直是生物信息学中的一个挑战性问题。为了提高非翻译区剪接位点识别的精度,本文采用支持向量机作为位点识别模型。考虑到剪接位点的选取与位点附近的核酸序列有着重要的关联,特别为支持向量机构造了一个新的核函数——位置权重子序列核函数。位置权重子序列核函数的特征变换综合了剪接位点两侧序列的组成信息和位置信息,能够较好反映实际的剪接机制。以人类5’非翻译区序列数据为实验对象,本文对该模型进行了实验验证,其识别精度与目前国际上非翻译区剪接位点识别软件的水平大体相当,甚至在一些指标上超过了其他的识别软件。(3)信号位点附近寡核苷酸模体发现的研究。生物信号位点附近通常存在一些保守性较高的短序列片断,称之为寡核苷酸模体。这些寡核苷酸模体往往对生物信号起着重要的调控作用。如果能够找出这些保守的模体,不仅有利于识别信号位点,还可以帮助理解生物信号产生作用的生理机制。为此,本文提出一个基于最大熵分布的模体发现算法,根据候选模体在信息增益上的差别,采用逐步筛选的方法,选取信息增益突出的寡核苷酸序列作为信号的模体。但是,在信号序列较长的情况下,该算法将占用大量的空间和时间,在实际中无法实现。为了解决这一问题,本文采用了序列分解的方法,将较长的序列分解为多个短片断。为了保留短片断之间的相关性,并不是简单地分割这些长序列,而是同时考虑了短片断之间分界点两侧的序列,这样既可以降低算法对空间和时间的需求,又尽可能地保留了全局信息。考虑到在众多的候选寡核苷酸序列中,只有少量的序列是真正的模体,本文在选取模体的时候加入了一个预选阈值,如果候选模体的出现频率小于预选阈值,则在进入迭代前,就将这个模体从候选模体集中去除。利用筛选后的寡核苷酸模体,信号序列能够较好地与背景序列区分开来,这说明选取的寡核苷酸模体较好地体现了信号特征。(4)选择性剪接在物种间的保守性研究。选择性剪接作为高等生物中普遍存在的一种生命现象,极大地丰富了基因的表达产物——蛋白质。通过选择不同的位点进行剪接,可以得到不同的蛋白质,它们可能会导致物种的变异,疾病的产生,生物功能的转变等等。通过分析不同物种之间选择性剪接的保守性,既可以得到物种在进化中保留下来的选择性剪接模式,还可以发现进化中单个物种产生的特异选择性剪接模式。为了详细分析选择性剪接与物种进化之间的关系,本文采用多个特征指标,从不同方面对常见选择性剪接方式中的外显子跳跃剪接进行了人类和小鼠这两个物种之间的保守性分析。结果表明,大部分的特征在两个物种之间具有很强的相似性,这说明人类和小鼠从共同的祖先处遗传得到相似的选择性剪接方式,具有很强的亲缘关系,这与近年来的研究结果相吻合。但同时也存在一些单个物种特有的特征,它们应该是物种在进化过程中独立发展出的特性。