论文部分内容阅读
转录调控对基因表达产生着至关重要的影响,转录分为起始,延伸和终止三个阶段,转录起始是基因表达的开始,转录调控元件控制着RNA的修饰、定位、翻译和降解,因此对转录起始位点的识别研究具有重大意义。传统的转录起始位点识别模型一般采用包括位置频率矩阵、位置特异性得分矩阵等一系列矩阵模型,此类模型虽然能更多地反映调控元件信息,但大都面临模型参数(伪计数)无法系统理论估计的困境。本文运用一种新的伪计数调整方法,对酵母基因转录起始位点及其上下游区域序列建立位置特异性得分矩阵模型,在理论和计算上为该困境形成了有效探索。 首先,本文对基于SAGE方法确定了转录起始位点的酵母基因进行RP基因与非RP基因的分类;其次,对各类基因转录起始位点上下游的碱基频率进行分析,计算各碱基位点的信息熵值,并以此确定了用于建立位置特异性得分矩阵模型的核心序列片段长度以及相应的训练集和样本集;再者,通过引入抽样分布误差理论将伪计数调整联系起来,建立经调整的位置特性得分矩阵模型,并对检验样本集进行打分;最后,引入对于模型的评价指标体系对模型进行系统评价与比较。 经过实验对比,我们发现经过调整的位置特异性得分矩阵模型能够较好地对拟合转录起始位点及其上下游附近的碱基片段,相关的评价指标在同等标准下有了大幅提高,由此证明了引入的调整方法的有效性;另外,将抽样分布误差理论将伪计数调整联系起来,对伪计数进行调整,与物种基因类别没有太多联系,因此,该方法具有普遍的适用性。