论文部分内容阅读
本文基于基因芯片数据研究基因调控网络的构建及其聚类分析方法。通过可靠的构建方法,找到最能反映基因之间相互关系的网络表达,然后对网络作比较分析,得出在不同背景状态下基因调控网络所表现出的网络结构及性质,进而得出其生物学意义。本文提出了一种新的基因调控网络构建方法,在提高可靠性的同时降低计算复杂度,即采用置换检验计算p值的置换测试方法来构建可靠的基因调控网络方法。构建网络方法的可靠性会直接影响后续研究工作中的分析结果。本文采用比较严格的置换测试方法及可靠的置换检验计算p值来构建基因调控网络,并使用Kuiper测验说明了采用置换测试方法构建网络的合理性。我们在假设检验方法的前提下,选择Pearson相关系数作为相关性衡量标准,随机的选取足够多的置换样本并计算出p值,然后采用PCER构建调控网络。并通过实验证实了通过本文方法计算出的p值与全置换所得到的结果非常接近。在计算出p值后,设一个阈值T,我们在p值小于T的两个基因之间连接上一条边。这样,以基因为顶点,以基因之间相互关系强弱来决定是否连边为基础,建立一个反映基因之间相互关系的调控网络。由上述方法构建出来的网络,本文采用Newman快速算法进行聚类。Newman快速算法是一个基于贪心策略的算法,不能保证给出最好的结果,所以聚出来的类中不可避免地出现噪音。由于包含少量基因的类很容易被噪音影响,容易得到可信度不高的结论,所以本文仅对聚类结果中包含基因个数很多的那些类进行分析。另一方面,我们通过比较基因调控网络的聚类系数及Motif数目,来观察分析网络结构。通过比较聚类后的调控网络,我们可以发现不同背景状态下基因调控网络在结构上所呈现出的异同,进而分析其在生物学中的现实意义。本文选取急性骨髓白血病与正常白细胞在有丝分裂细胞周期的基因实验数据,最终得出,急性骨髓白血病的调控网络比正常白细胞调控网络要随机得多,离散得多,这从某种程度上说明了,急性骨髓白血病调控网络缺失了某些机制,从而导致了癌症的发生。对通过本文方法构建的网络,进行分析后得出的结论与生物学的基本理论相符合,这说明了本文方法的正确性。