论文部分内容阅读
本文采用机器学习和数据挖掘方法,针对生物信息学中操纵子预测、系统发生树的构建和微阵列数据中特征选择等三个问题做了较为深入的研究:1.提出了一种使用神经网络作为分类器,融合基因组内基因间距离、基因的直系同源簇功能、保守基因对和基因的系统进化谱等四种信息的操纵子预测方法;2.提出了一种使用马尔科夫聚类算法的图聚类模型(OPMC)进行操纵子预测,这种模型使用基因间距离、保守基因簇、基因本体相似性和基因间序列等四种基因组通用的属性信息,并结合图聚类算法进行操纵子预测;3.提出了一种推断原核生物系统发生关系和构建系统发生树的新方法。该方法基于全基因组的连续直系同源基因信息构建系统发生树,使用连续直系同源基因的数目度量两个基因组之间的进化距离;4.提出了一种新颖的系统发生树构建方法,该方法利用多物种的全基因组信息构建原核生物系统发生树,在剔除水平基因转移事件的影响之后,根据两个物种间保守基因簇中的直系同源基因的数目计算两个基因组间的直系同源基因簇距离,从而构建系统发生树;5.提出了一种用于微阵列数据无关基因剔除的全局标准化信噪比方法(gn-SNR),该方法通过估计不同样本的全局标准化均值和标准差来剔除无关基因;6.提出了一种能够处理原始微阵列数据集中所有四种类型基因的多阶段特征选择算法。该方法在算法的不同阶段分别剔除无关基因、噪声基因和冗余基因,之后对相关的信息基因进行排序;7.提出了一种基于局部支持向量机和递归特征剔除方法的双向局部化特征选择算法CL-SVM-RFE。该算法使用局部标准化信噪比方法剔除无关基因,使用SVC-KM方法对剩余基因进行聚类并剔除冗余基因,使用一个基于局部支持向量机(Local SVM)的反向特征剔除过程选择特征基因。使用提出的方法在相关数据集上进行实验验证。实验结果表明,提出的方法对于解决相关生物信息学问题具有很好的效果,从而验证了机器学习算法和数据挖掘技术在解决生物学问题上的有效性和可行性。