机器学习及数据挖掘在生物信息学中的应用研究

被引量 : 0次 | 上传用户:zhaoxiaoyan0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文采用机器学习和数据挖掘方法,针对生物信息学中操纵子预测、系统发生树的构建和微阵列数据中特征选择等三个问题做了较为深入的研究:1.提出了一种使用神经网络作为分类器,融合基因组内基因间距离、基因的直系同源簇功能、保守基因对和基因的系统进化谱等四种信息的操纵子预测方法;2.提出了一种使用马尔科夫聚类算法的图聚类模型(OPMC)进行操纵子预测,这种模型使用基因间距离、保守基因簇、基因本体相似性和基因间序列等四种基因组通用的属性信息,并结合图聚类算法进行操纵子预测;3.提出了一种推断原核生物系统发生关系和构建系统发生树的新方法。该方法基于全基因组的连续直系同源基因信息构建系统发生树,使用连续直系同源基因的数目度量两个基因组之间的进化距离;4.提出了一种新颖的系统发生树构建方法,该方法利用多物种的全基因组信息构建原核生物系统发生树,在剔除水平基因转移事件的影响之后,根据两个物种间保守基因簇中的直系同源基因的数目计算两个基因组间的直系同源基因簇距离,从而构建系统发生树;5.提出了一种用于微阵列数据无关基因剔除的全局标准化信噪比方法(gn-SNR),该方法通过估计不同样本的全局标准化均值和标准差来剔除无关基因;6.提出了一种能够处理原始微阵列数据集中所有四种类型基因的多阶段特征选择算法。该方法在算法的不同阶段分别剔除无关基因、噪声基因和冗余基因,之后对相关的信息基因进行排序;7.提出了一种基于局部支持向量机和递归特征剔除方法的双向局部化特征选择算法CL-SVM-RFE。该算法使用局部标准化信噪比方法剔除无关基因,使用SVC-KM方法对剩余基因进行聚类并剔除冗余基因,使用一个基于局部支持向量机(Local SVM)的反向特征剔除过程选择特征基因。使用提出的方法在相关数据集上进行实验验证。实验结果表明,提出的方法对于解决相关生物信息学问题具有很好的效果,从而验证了机器学习算法和数据挖掘技术在解决生物学问题上的有效性和可行性。
其他文献
中国进出口企业供应链融资问题探析2010年9月9日,世界经济论坛发布了《2010年至2011年度全球竞争力报告》,中国排名上升两位至27位,在发展中经济体中继续领先。这其中要得益
在全面推进素质教育的今天,审美教育受到了广泛的重视。审美教育实质是培养一种情感的教育。新课程目标强调培养学生的情感,态度,价值观,强调知识与技能,过程与方法,情感态度
大豆分离蛋白(SPI)是以脱脂豆粕为原料经过碱溶酸沉等方式制备而成的蛋白质产品,传统的提取工艺存在用水量高、提取率低、乳清废水排放量大等问题。本文以豆粕中蛋白质为研究
人工冻结法目前已经广泛应用于地铁上下行隧道间联络通道的施工中。特别是在软弱地层地区,这种工法能够提高开挖区域周围围岩的强度和防水性能,使围岩自身的支护能力变强,增
统计形成一门科学始于十七世纪的欧洲。统计学是研究如何收集、处理和分析数据从而得出结论或找出规律的科学,是应管理国家的需要而产生的。目前我国大部分主要城市都有高新
我国农村地区人口约8亿,农村民用建筑面积约为221亿m~2,占全国房屋建筑面积的56%(中国能源统计年鉴2004)。据调查,寒冷地区农村住房建造水平低、保温措施少,大部分住房未进行
“择校”是近年来义务教育领域的焦点问题。由于义务教育阶段择校与我国法律规定的义务教育精神相悖,与实行的就近入学政策相抵触,自由择校不被允许。加之这一问题又几乎涉及
1.历史沿革东邻日本瓷土资源匮乏,陶瓷品种主要为陶质材料制作的陶器。目前日本瓷器仅有有田及九谷两处。九谷烧瓷器的历史可以追述到1655年。日本江户时代。加贺之藩大圣寺藩
以磷石膏为原料,采用乙酸钠、丙酸钠、丁酸钠三种羧酸钠盐为转晶剂,在0.02 MPa、140℃反应条件下,采用水热合成法转晶CaSO4·2H2O制备α-CaSO4·0.5H2O,以SEM、XRD进行表征。
随着社会对学历的要求越来越高,我国大学生专升本的比例也越来越高,这种被动性的学历提升使得我国专升本教育中存在的一些问题更加明显。通过对美国社区学院的研究发现,其转学教