论文部分内容阅读
随着基因芯片技术的发展,基因表达数据的规模获得了飞速的扩充。如何对这些数据进行合理高效的处理,获得数据背后所蕴含的丰富的生物学意义,已成为目前生物信息学研究的热点内容。生物基因表达具有时序性、时滞性的特点,即在不同的时间点,进行转录和翻译的基因并不相同,并且表达的程度也不尽相同。时序基因表达数据具有小样本、少时间点、高维度的特点,需要我们选择合适的方法对数据进行处理,并对结果进行合理的解读。目前数学、信息学、计算机科学等各个领域的方法已被应用到对这些数据的处理过程中。通过对这些数据的处理,我们可以构建基因调控网络,明确各个基因在某些时间点的功能。而这些结果将有力的推动生物医学、信息学及计算科学的发展。本文的主要工作如下: (1)分析了基因表达数据缺失值的成因,对常用的基因表达数据缺失值填充方法进行了总结,并针对时序基因表达数据的缺失值问题,提出了双向加权回归填充算法。双向加权回归填充算法考虑了基因之间在时间和空间两方面的关系,使得填充值在保证填充精度的基础上最大程度的包含基因之间可能存在的关系。 (2)使用聚类算法对时序基因表达数据进行聚类分析。聚类算法可以用作数据降维工具,也可以作为构建基因调控网络工具使用。尽管它们可以发现可能具有相关作用的基因,但无法得到这些基因之间具体的调控关系,比如抑制或者促进作用。由于本次试验使用的基因表达数据量不是很大,本文将聚类算法作为时序基因分类工具使用。我们使用了自组织聚类、层次聚类和贝叶斯聚类三种聚类算法对时序基因表达数据进行了聚类分析,并对聚类结果进行比较。 (3)介绍了隐马尔科夫模型三大问题,估计问题、解码问题和训练问题,及相应的解决算法。对时序基因表达数据,通过计算相邻时间点之间各个基因之间的相关系数和P值来构建基因时序观测矩阵。利用期望最大化(ExpectationMaximization,EM)算法训练隐马尔科夫模型系数,并基于基因时序观测矩阵训练隐马尔科夫模型并创建基因调控网络。 (4)将遗传算法与隐马尔科夫模型训练方法相结合,利用遗传算法扩大隐马尔科夫模型训练过程中初始状态概率、状态转移概率及状态观测概率的搜索范围,降低EM算法迭代陷入局部最优的可能性,以此提高隐马尔科夫模型参数的准确度,使之能够更加切合实际情况。最后根据优化后得到的隐马尔科夫模型创建基因调控网络,并与仅利用原始隐马尔科夫模型训练方法得到的调控网络进行比较。