论文部分内容阅读
传统的分子生物学着重于研究单个基因的功能。但是,生物体是一个复杂的系统,基因彼此相互作用形成网络。基因网络的功能并不简单的是单个基因功能之和。因此,在后基因时代,功能基因组的目标之一是从试验数据中挖掘基因网络,并分析其隐含的生物规律。
基因调控是理解基因功能的重要过程。本文的工作着重在于研究酵母的转录调控网络。本文提出了从表达谱数据以及ChIP-on-chip试验数据中推导可靠的转录调控关系的新方法,并将协作网络的概念引入到转录调控网络的分析当中。
首先,在第3章,提出了一种从表达谱数据中推导基因调控网路的新算法。在以前的研究中,为了减小推导过程数据维数过少的问题,许多方法集成了不同数据源的表达谱数据用于反推基因调控网络。但是在不同的试验条件下,基因之间的相关性并不一定是稳定不变的。因此,集成不同数据源推导的基因调控关系,并不一定能准确的反映在特定试验条件下基因的关系。然而,仍有可能在某些试验条件下部分基因调控关系形成的子网的结构是相对保持稳定的(我们称之为“一致结构子网”),从这些子网中能推导更加准确可靠的调控关系。
本文提出了一种基于秩序统计量和min-hashing& locality-sensitive hashing的高效可扩展的算法,用于从集成的表达谱数据中寻找一致结构子网。结果显示在我们找到的一致结构子网中,边的权重相对随机背景更强,并且在一个子网内基因之间相关性比较紧密。对一致结构子网的生物意义分析显示,大部分一致结构子网都功能相关或者是转录调控模块。并且,这些有意义的基因关系很多是传统方法所不能发现的。因此,一致结构子网方法是传统挖掘多表达谱数据功能模块方法的一个很好的补充。
在第4章,结合表达谱数据和基因的GO注释,评价从ChIP-on-chip试验中得到的基因调控关系的可靠性。使用ChIP-on-chip试验技术,通过全基因组规模的定位转录因子在DNA双链的绑定位置,可以获得大规模的基因转录调控关系。但是,当转录因子的绑定位点位于两个相反转录基因之间的公共promoter区域时,很难判断转录因子到底会调控哪一个基因。通常在这种情况下,由ChIP-on-chip试验注释的转录调控网络会将这两个基因都分配给该转录因子,因此带来不可避免的假阳性数据,从而给后续的网路分析带来误差。
本文使用了一种新的方法,通过计算表达谱的二次相关性,并结合基因的GO注释信息,来评价上述情况下,哪些基因更倾向于被转录因子调控,而哪些基因不倾向于被调控。使用文献已确认的调控关系来验证该方法的结果,发现大部分调控关系符合方法的预测。进一步分析发现,转录因子的绑定位点倾向于离可能调控的基因更近。最后,分析了由注释带来的假阳性调控关系对转录调控网络拓扑结构motif的影响,发现假阳性边通常仅影响调控网络的细节结构,而对网络主体框架影响不大,从而说明了调控网络的鲁棒性。
在第5章,在转录调控网络的分析中引入了一个新的概念——协作网。协作网通常被用于分析反映人际关系的社会网络。笔者将相似的概念用于转录调控网络,基于共享的转录因子建立了被调控基因的协作网,同样的,基于共享的调控基因建立了转录因子的协作网。
对被调控基因协作网聚类后发现,大部分类都显著的共享相同的GO注释。并且,具有一些GO注释的基因更倾向于调控机制相似。此外,应用在二部图分析中“孤立点”的概念到协作网的分析中,发现了“孤立点”和essential基因的关联。这个结果指出了,在调控网络的拓扑结构中,隐含了基因重要性的信息,而协作网的方法,是对其他调控网络分析方法的一个有意义的补充。