论文部分内容阅读
伴随着人类基因组计划的开展,生物信息学的相关研究工作也在不断地向前发展,近年来,生物学发展的一个突出特征是生物信息量呈指数增长,数据的爆炸式增长对研究者们提出了一个严峻的新问题:怎样才能够高效管理、精确解读并充分利用这些海量信息?深入研究DNA序列对于解读人类基因组所隐藏的结构和功能十分重要,然而DNA序列与数值型数据存在着较大的不同,由于DNA序列完全由非数值符号构成,用于数值型数据的距离度量方法无法直接对其进行度量,与此同时DNA序列碱基之间具有复杂的关系,通过传统特征表示继而使用分类方法进行分类将会出现必要信息损失的问题。受DNA序列自身特点影响,多数在数值型数据上发挥很好的分类方法却在DNA序列分类时不能取得很好的分类结果,需要使用一些独特的方式对其分类。本文从DNA序列的生物学特征及统计学模型入手,研究DNA序列的概率统计特性,围绕两个关键问题:特征表示和基于模型的序列分类,对DNA序列进行深入的分析和分类研究;在深入研究隐马尔可夫模型的基础上提出新的DNA序列特征表示方法用于序列分类;同时探讨了二阶隐马尔可夫模型在DNA序列分类中的应用,最后,针对当前海量生物学数据,提出将集成学习思想用于基于模型的序列分类,具有重要的理论意义和实际应用价值。本文的主要工作及贡献如下:1.针对现有方法容易导致因DNA序列碱基残缺而影响分类精度等问题,提出一种新的DNA序列特征表示方法。基于这种新的特征表示法,构造了一种K-NN分类器对DNA序列进行分类。2.在分析DNA序列特有的生物学构造的基础上,提出一种用于DNA序列分类的二阶隐马尔可夫模型,基于新模型,提出一种DNA序列的贝叶斯分类新方法。3.针对当前的海量生物学数据,批量学习的弊端凸显,将集成学习思想用于基于模型的序列分类,提出增量二阶隐马尔可夫模型的DNA序列分类方法。将二阶隐马尔可夫模型与集成学习思想相结合,实现DNA序列分类模型的增量学习,支持分类模型在海量数据下的处理能力。