【摘 要】
:
基因识别是生物信息学领域的一个重要研究内容。虽然现在有90%以上的基因都可以准确注释,但是由于基因表达调控的复杂性和复杂疾病的研究使得基因识别依然是具有挑战性的课题。
论文部分内容阅读
基因识别是生物信息学领域的一个重要研究内容。虽然现在有90%以上的基因都可以准确注释,但是由于基因表达调控的复杂性和复杂疾病的研究使得基因识别依然是具有挑战性的课题。本文以原核生物基因为研究对象,围绕利用特征筛选提高基因识别率这个目标,从训练集的产生及优化和分类器的选择两个方面开展了理论和实验研究工作。
论文首先综述了国内外的原核生物基因识别算法,根据原核生物基因组的特点提出了利用特征筛选来提高基因识别率的方案。
其次,研究了原核生物基因识别中的特征筛选方法。在大肠杆菌全基因组序列寻找满足条件的开放阅读框(Open Reading Frames,ORF),并与可靠基因位点文件进行比较产生训练样本集。然后提取GC含量和Z曲线特征,通过对这四个特征进行特征组合和信息量T检验,对不同信息量的特征分别设计Fisher判别法、线性最小二乘支持向量机和非线性最小二乘支持向量机分类器,结果表明随着特征值信息量的减小,分类器的错分率都有所增加,并且非线性最小二乘支持向量机的识别率比fisher线性判别和线性支持向量机高。
最后,实现了一种基于非线性最小二乘支持向量机的基因识别算法,考虑到密码子内部相邻碱基之间的近程相关性,通过对Z曲线33个识别变量进行特征筛选得到22个优选特征值,并通过排除训练集重叠ORFs和进行起始位点预测使训练集的正样本更接近于真正的编码蛋白质基因。利用这个训练集设计的非线性最小二乘支持向量机分类器可以使基因的识别率达到94%以上。
其他文献
光通信已经给通新领域带来了巨大的变化,成为该领域的重要支撑。光纤通信不但串扰小,信号传输质量高,抗电磁干扰好,保密性强,而且传输频带极宽,通信容量很大。但是当光纤通信
汽车在行驶的过程中,需要许多安全系统的辅助,如ABS、安全气囊等。这些安全系统通过各种传感器获取汽车的运动状态,从而对汽车的运动状态的判断、经过控制算法的计算,来操控汽车
随着我国汽车工业的飞速发展,人们对汽车的安全、舒适等特性要求的提高,传统的机动车辆监控方式已不能满足人们对车辆安防、监控以及管理等方面的迫切需求。各种社会问题与日俱
工业生产的快速发展使得工业系统更为复杂,大时滞、时变性、严重非线性给工业控制系统提出了更高的要求。具有时滞特性的控制系统是普遍存在的,对于大时滞系统的控制是很困难
煤炭是我国最重要的能源之一,对我们的生活、工业生产都有巨大的影响。虽然我国煤炭资源很丰富,但煤层中却吸附着大量的瓦斯,并且大部分具有较高吸附力,所以大多数煤层都属于
在当今世界石油资源短缺、环境污染加剧的严峻形势下,开展天然气汽车关键技术研究与产品开发,具有重要的理论意义和工程应用价值。而如何改进天然气发动机的结构,提高其电控系统
随着社会的发展和技术的进步,工业自动化得到了越来越多的关注。在工业生产中普遍存在耦合及时滞现象,传统的PID控制已经不适应高精度的生产要求,因此越来越多的学者开始将先
目标跟踪(Target tracking)问题在军事与民用领域具有广泛的应用前景,但实际场景中存在虚警、杂波、目标数的随机性、漏检及量测的非线性等不确定性因素,使其成为学术界与工
逆锑盐净化过程是湿法炼锌工艺的关键工序,主要通过加入锌粉和锑盐置换除去硫酸锌溶液中的杂质离子。净化过程机理复杂、长流程特性以及检测大滞后导致过程优化控制困难,因此
造波机系统是为船模水池试验,并获取相关试验数据而必备的试验装置。本研究课题来源于中国船舶重工集团试验技术改造项目,该项目对于船舶系统结构设计、特辅装置与系统的实现将