论文部分内容阅读
可变剪接是调控基因表达的关键机制,它使得一种编码蛋白质的基因可以产生多种转录变体,丰富了遗传信息的应用,可变剪接的异常会导致遗传疾病甚至癌症的发生。本论文在分析可变剪接调控机制与相关疾病研究现状以及存在的问题的基础上,基于不同的数据源,设计不同的生物信息学方法对可变剪接调控机制与疾病的相关性进行分析和研究。研究主要从以下几个方面进行:组织特异性可变剪接与疾病的研究。不同组织中特有的可变剪接模式称为组织特异性可变剪接。论文以睾丸及睾丸癌组织为研究对象,基于EST序列数据,设计了一种识别模型,在全转录组范围内预测睾丸及睾丸癌组织特异性可变剪接事件,并进一步对这些识别出的剪接模式进行研究,分析这些剪接模式的核酸倾向性,染色体偏好性,以及与睾丸组织疾病之间的关系。利用所提出的方法,基于GeneBank中的dbEST数据库,哺乳动物EST文库,以及开放阅读框文库的数据,成功预测出具有睾丸及睾丸癌组织特异性的可变剪接模式。物种特异性可变剪接与疾病的研究。可变剪接在不同的物种中有着不同的剪接模式,其致病机理也有所不同。论文设计了一种研究物种特异性可变剪接与疾病相关性的生物信息学框架。从各个角度研究物种特异性可变剪接的特点。首先,对人类在小鼠和狗基因组中的保守性剪接模式进行识别,从而确定出具有物种特异性的剪接模式,然后对这些剪接模式进行多方面的分析研究,主要包括可变外显子,可变剪接位点的保守性分析,剪接位点功能倾向性的分析,以及剪接位点的分布等。应用该生物信息学框架,成功预测了人类特异性可变剪接的保守模式,并分析了这些模式的特点;应用Fisher检验方法,对人类具有物种特异性可变剪接的模式与相关疾病数据库进行检验,结果表明,物种特异性可变剪接与疾病密切相关。RNA-蛋白质结合区域预测及其与疾病的相关性。RNA-蛋白质调控基因在后转录过程中的众多关键过程。为研究RNA-蛋白质结合区域的特性及其与相关疾病之间的关系。论文提出一种基于HMM的预测方法,对SFRS1蛋白质的结合区域进行从头预测。方法中考虑到RNA二级结构对结合位点的影响,将序列信息与结构信息结合起来对建立的HMM进行训练,应用训练好的HMM对RNA-蛋白质结合位点进行预测;然后应用贝叶斯网络对参与RNA-蛋白质结合区域的可变剪接事件进行预测,以盒式外显子为例,预测参与剪接调控的盒式外显子数目,方法中考虑到结合位点与剪接位点之间距离的远近对结合位点有影响,在构建贝叶斯网络时将距离因素考虑进来;最后对RNA-蛋白质结合区域的点突变与疾病数据库进行搜索,找出二者之间的相关性。通过对SFRS1蛋白质的结合序列的测试表明,HMM方法能准确预测出蛋白质结合RNA的区域,其准确率高于现有的预测方法。以盒式外显子为例,成功预测出119个参与调控RNA-蛋白质结合区域可变剪接的盒式外显子。进一步与疾病数据库的研究发现:结合区域的异常与疾病密切相关。癌症特异性可变剪接。可变剪接是癌症表达的天然来源,某些特定剪接模式的改变与癌症具有很强的相关性。论文基于外显子芯片数据,对癌症特异性剪接进行研究,首先,设计外显子芯片数据处理的方法,检测剪接事件;然后建立一种癌症特异性可变剪接模体表达水平的预测模型,预测出具有癌症特异性的剪接事件;通过对结肠癌组织与正常结肠组织的实验,发现许多具有结肠癌特异性的剪接变体,其中一些已经得到注释与癌症相关,大部分识别出的剪接变体影响细胞组织,细胞间质或者综合信号,可能参与细胞迁移与入侵。结果表明,利用外显子芯片技术,结合剪接模体表达水平预测模型对癌症特异性剪接进行研究,不仅可以在基因组范围内识别出不同的可变剪接变体,同时可以提供更为灵活的,更为可靠的基因表达分析。