论文部分内容阅读
在攻读博士学位期间,笔者主要在如下三个方面从事了一些生物信息学的研究工作,包括对实验生物学的生物信息学技术支持、数据分析以及应用聚类方法在高通量数据的整合分析方面进行了探索。
基于合作单位在单分子操纵和纳米PCR扩增技术方面的实验进展,笔者提出了一种在单分子水平上的有序化单分子纳米测序策略。在这个合作项目中,笔者负责对实验生物学提供生物信息学的技术支持,在数据提取、实验设计和数据分析等方面做出了自己的贡献。正在通过分子手术的方法,即应用纳米克隆、纳米测序和纳米操纵技术展开攻关,希望解决与重复序列紧密相关的复杂基因组的序列间隙问题。
第三章是关于中华民族Y染色体非重组区域单核苷酸多态性的研究工作。本组实验数据中发现了新的祖先家系单体型亚组haplogroupO*,由此笔者对之前研究中提出的中华民族南方起源假说提出了质疑;并以本研究结果,推测性地提出了西部/北部起源的猜想。嵌套分支分析方法(nestedcladisticanalysis)进一步揭示了一幅更为详尽的多层次,多方向、持续性的民族融合历史画卷,这一民族融合的过程也就是中华民族形成和发展的过程。本研究为中华民族的演化和迁徙的研究提供了一些新的线索,一些相应的推断也与历史资料的记载相吻合。
第四章在多数据源的整合方面进行了一些探索,试图通过一个简单但十分有效的层次聚类算法来实现这个目标。本方法可以有效的揭示酵母高通量蛋白相互作用网络中的模块化结构,并通过进一步整合相关的亚细胞定位组数据及表达谱数据区分蛋白复合物和蛋白功能模块。进而根据功能模块中蛋白功能一致性的特征,笔者可以为在定义的功能模块中对尚未被注释的蛋白提供相对可信赖的功能预测。另一方面,对各种蛋白之间相关信息的整合可以使我们的方法对高通量数据的假阳性具有更高的鲁棒性。更为重要的是,这种简单方法能够很自然地被扩展到处理其它类型的数据融合问题,为研究生物网络及其它复杂网络的更为广阔的特性提供了一个理论框架。