基于隐马尔科夫模型构建基因调控网络

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zhongtuo97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因芯片技术的发展,基因表达数据的规模获得了飞速的扩充。如何对这些数据进行合理高效的处理,获得数据背后所蕴含的丰富的生物学意义,已成为目前生物信息学研究的热点内容。生物基因表达具有时序性、时滞性的特点,即在不同的时间点,进行转录和翻译的基因并不相同,并且表达的程度也不尽相同。时序基因表达数据具有小样本、少时间点、高维度的特点,需要我们选择合适的方法对数据进行处理,并对结果进行合理的解读。目前数学、信息学、计算机科学等各个领域的方法已被应用到对这些数据的处理过程中。通过对这些数据的处理,我们可以构建基因调控网络,明确各个基因在某些时间点的功能。而这些结果将有力的推动生物医学、信息学及计算科学的发展。本文的主要工作如下:  (1)分析了基因表达数据缺失值的成因,对常用的基因表达数据缺失值填充方法进行了总结,并针对时序基因表达数据的缺失值问题,提出了双向加权回归填充算法。双向加权回归填充算法考虑了基因之间在时间和空间两方面的关系,使得填充值在保证填充精度的基础上最大程度的包含基因之间可能存在的关系。  (2)使用聚类算法对时序基因表达数据进行聚类分析。聚类算法可以用作数据降维工具,也可以作为构建基因调控网络工具使用。尽管它们可以发现可能具有相关作用的基因,但无法得到这些基因之间具体的调控关系,比如抑制或者促进作用。由于本次试验使用的基因表达数据量不是很大,本文将聚类算法作为时序基因分类工具使用。我们使用了自组织聚类、层次聚类和贝叶斯聚类三种聚类算法对时序基因表达数据进行了聚类分析,并对聚类结果进行比较。  (3)介绍了隐马尔科夫模型三大问题,估计问题、解码问题和训练问题,及相应的解决算法。对时序基因表达数据,通过计算相邻时间点之间各个基因之间的相关系数和P值来构建基因时序观测矩阵。利用期望最大化(ExpectationMaximization,EM)算法训练隐马尔科夫模型系数,并基于基因时序观测矩阵训练隐马尔科夫模型并创建基因调控网络。  (4)将遗传算法与隐马尔科夫模型训练方法相结合,利用遗传算法扩大隐马尔科夫模型训练过程中初始状态概率、状态转移概率及状态观测概率的搜索范围,降低EM算法迭代陷入局部最优的可能性,以此提高隐马尔科夫模型参数的准确度,使之能够更加切合实际情况。最后根据优化后得到的隐马尔科夫模型创建基因调控网络,并与仅利用原始隐马尔科夫模型训练方法得到的调控网络进行比较。
其他文献
月球车是我国探月计划的关键设备,而自主导航系统是月球车系统组成的关键部分,其任务是实时提供月球车的运动姿态和位置。月球车的自主导航系统是月球车漫游过程中实现运动控制
随着Web应用系统复杂度和多样性的不断提高,开发工作所面临的困难也不断增加。在传统的Web应用开发模式中存在着很多方面的不足,主要体现在软件开发自动化程度较低、无法应对
月球车在一个未知的、非结构化的环境中完成路径规划、避障以实现自主导航并执行预定的作业任务,就必须首先知道当前时刻自己的位置和运动姿态,以及之前时刻的运动路径与环境地
视频序列中的行为分析与识别是模式识别和计算机视觉领域中一个重要的前沿研究方向。这方面的研究和进步有助于构建一个智能化的系统和网络,例如智能机器人、智能视频监控系统
为了满足某航磁探测无人机电动舵机驱动系统的需求,论文对双通道冗余无刷直流电动机的控制技术进行了研究,设计了单、双通道冗余工作模式的双通道冗余无刷直流电动机驱动器。该
近年来数字化校园建设已取得重大历史性突破,实现了环境数字化、管理数字化、教学数字化,积累了大量业务数据。现代化教学环境中普遍使用多媒体设备,提高了教学效率,丰富了教学手
随着机器人技术的不断发展,智能移动机器人目前己走进人们的日常生活,并在各个领域发挥着重要作用。移动机器人只有准确地知道自身在所处环境中的位置,才能更加自主有效地为
在上世纪中叶,前苏联学者开始对变结构控制理论进行研究。变结构最大的优点是对系统的干扰和摄动具有完全的自适应性,而且状态轨迹的设计与系统的参数和扰动无关。经过几十年的
密相气力输送粉体系统的流型变化对流体的流动特性及参数检测具有重要的影响。为了更好地分析流体的流动特性对于传感器输出的影响,本文进行流体数值模拟仿真方法研究,为实现
在现代过程工业中,为增加经济效益,提高过程运行的平稳性、安全性和环保性,软测量技术被广泛应用于主导变量的在线预测。为了提高软测量模型的预测精度以及使用寿命,本文在局部学习的框架下,从即时学习和集成学习两个方面着手,研究能够同时解决过程非线性和时变性问题的自适应软测量建模方法,针对不同的问题提出了一些解决方案,并对其进行了仿真验证和结果分析。主要的研究成果简述如下:(1)针对即时学习中相似样本集的构
学位