论文部分内容阅读
基因表达调控是后基因时代研究的一个重点。作为基因转录调控信息的载体,转录调控元件在基因转录过程中起着重要的作用。基因调控物质即转录因子通过与调控元件的相互作用,调节基因的转录,控制基因的表达。因此,分析和识别转录调控元件以及了解它们的功能是理解和解释整个基因组行为的重要步骤。本文主要从基因组序列出发研究调控元件的发现、相互作用以及在基因组中各个区域的分布情况。工作主要分为四部分:算法的设计,平台的搭建,调控元件分布分析,组合元件识别研究。
算法的设计主要分为调控元件搜索算法和组合元件识别算法设计两部分:在调控元件搜索算法方面,通过对现有搜索算法的比较和分析,确定利用模式(矩阵或者一致性序列)驱动的思想来设计调控元件搜索算法。在组合元件识别方面,根据对组合元件的研究和理解认为,构成组合元件的两个元件的结合部位之间的距离和先后顺序很重要,它们的排列必须契合相互作用的转录因子间的三维空间结构,使两者能够正确地结合。根据此提出了组合元件基于距离和方向的保守性的假设,并且以此假设为基础设计了组合元件的识别算法。
利用上面的算法,结合本实验室的两个数据库GSFD和GRI开发了转录调控元件的搜索和组合元件的识别平台。该平台主要功能分两部分:第一,可以研究调控元件在基因组不同区域的分布分析,从而可以研究大规模的基因组不同功能区域调控信息的分布。提供了调控元件的两种模式来进行搜索,分别是矩阵和一致性序列。第二,可以判断一对元件是否是组合元件,并且给出了一对组合元件与基因双链结合的方式,这一点需要有一定规模的基因组为基础来进行识别判断。最后,对这两部分工作都提供了结果的可视化并且可以在线使用该平台。
以该平台为基础,研究了酵母全基因组以及人类20、21和22号染色体不同区域的丰度分析,并发现了一些有趣的现象,比如,在酵母基因组中研究发现,调控元件在基因上游区域丰度相对于其他区域明显突出,而对人类基因组研究发现,确实发现基因上游区域的结合位点含量相对却不是很高,而基因间区,内含子区相对于外显子区域却含有较多的结合位点,因此我们猜测,是不是人类基因组存在着更为复杂的调控体系?
在组合元件识别方面,对10个调控元件两两之间共55对元件进行了系统的研究,并对他们两两之间的距离以及与双链的结合方式进行了统计。共找出了46对组合元件,其中有9对在以前的文献中找到了相关的报道,另外有3对收录在transcompel数据库中,这也同时验证了本文算法和平台的有效性。还利用上述的46对组合元件数据构建了多元件参与组合的模型,并且对组合元件的保守性,邻域,对称性,重叠性等问题进行了研究和探讨,使我们对组合元件有了更深刻的认识和理解。