基于隐马尔可夫模型的DNA序列分类研究

来源 :福建师范大学 | 被引量 : 3次 | 上传用户:youkangstrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着人类基因组计划的开展,生物信息学的相关研究工作也在不断地向前发展,近年来,生物学发展的一个突出特征是生物信息量呈指数增长,数据的爆炸式增长对研究者们提出了一个严峻的新问题:怎样才能够高效管理、精确解读并充分利用这些海量信息?深入研究DNA序列对于解读人类基因组所隐藏的结构和功能十分重要,然而DNA序列与数值型数据存在着较大的不同,由于DNA序列完全由非数值符号构成,用于数值型数据的距离度量方法无法直接对其进行度量,与此同时DNA序列碱基之间具有复杂的关系,通过传统特征表示继而使用分类方法进行分类将会出现必要信息损失的问题。受DNA序列自身特点影响,多数在数值型数据上发挥很好的分类方法却在DNA序列分类时不能取得很好的分类结果,需要使用一些独特的方式对其分类。本文从DNA序列的生物学特征及统计学模型入手,研究DNA序列的概率统计特性,围绕两个关键问题:特征表示和基于模型的序列分类,对DNA序列进行深入的分析和分类研究;在深入研究隐马尔可夫模型的基础上提出新的DNA序列特征表示方法用于序列分类;同时探讨了二阶隐马尔可夫模型在DNA序列分类中的应用,最后,针对当前海量生物学数据,提出将集成学习思想用于基于模型的序列分类,具有重要的理论意义和实际应用价值。本文的主要工作及贡献如下:1.针对现有方法容易导致因DNA序列碱基残缺而影响分类精度等问题,提出一种新的DNA序列特征表示方法。基于这种新的特征表示法,构造了一种K-NN分类器对DNA序列进行分类。2.在分析DNA序列特有的生物学构造的基础上,提出一种用于DNA序列分类的二阶隐马尔可夫模型,基于新模型,提出一种DNA序列的贝叶斯分类新方法。3.针对当前的海量生物学数据,批量学习的弊端凸显,将集成学习思想用于基于模型的序列分类,提出增量二阶隐马尔可夫模型的DNA序列分类方法。将二阶隐马尔可夫模型与集成学习思想相结合,实现DNA序列分类模型的增量学习,支持分类模型在海量数据下的处理能力。
其他文献
随着社会经济的不断发展,工业成为我国国民经济的重要支柱,对国民经济的增长具有极其重要的影响。但是工业产业在发展的过程中会生产大量的废水,极大破坏了生态环境,导致水质
《道德与立法原理导论》是英国法理学家、功利主义学家、经济学家和社会主义改革者边沁(Jerry Bentham)的重要著作,该书中,边沁首次对功利原理作了系统的阐述,以快乐和痛苦为
小学语文课堂教学的有效性问题由来已久。所谓“高效课堂”就是用尽可能少的时间获取最大教学效益的教学活动。课堂是教育教学实施的主要阵地,学生学习效率的提高主要靠课堂教
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的:稽留流产(Missed Abortion,MA)是一种病理性妊娠,也是流产的特殊类型之一,病因尚不明确,其较高的发病率严重影响我国妇女的身心健康。近年来,维生素D(Vitamin D,VD)在母胎界面发挥免疫作用的重要性已得到越来越多的认同。25-(OH)D具有较长的半衰期和相对稳定性,是临床上检测VD体内含量的最佳指标。本研究通过对MA的女性和正常早孕要求终止的女性血清中VD含量及其血清免
根据DEA模型将影响经济增长的因素分解为3部分:软技术进步、硬技术进步和投入增长,并导出了它们的计算公式,同时进一步通过1991~2007年各省的投入产出数据确定出前沿生产函数
微波频率源是雷达、无线通信等电子系统中的关键部件。随着电子技术的不断进步和发展,电子系统对于微波频率源的指标要求也越来越高,尤其是相位噪声指标。无论用何种频率合成