论文部分内容阅读
生物信息学是一门交叉学科,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。生物信息学的研究方面十分广泛,其中,蛋白质亚细胞位点定位是目前热门的研究课题之一。一个完整的细胞可以分成许多不同的细胞区域,如细胞质、叶绿体、线粒体等,大多数蛋白质在核糖体中合成以后要被转运到特定的细胞器中,蛋白质只有在合适的位点才能执行其特定的功能,否则会产生其它影响,甚至导致疾病产生。因此,能够准确有效的预测蛋白质的亚细胞位点具有十分重要的生物学意义。
本文的内容如下:
第一章介绍生物信息学产生的背景、研究的对象、内容以及本文的工作。
第二章介绍生物信息学中有关分类问题中的一些机器学习方法,包括k-最近邻算法、贝叶斯统计、神经网络模型和支持向量机等。
第三章给出一种基于最优分割位点的蛋白质亚细胞位点预测方法。根据每条蛋白质序列的最佳分割位点,把序列分割成三部分:N端分选信号部分、中间部分和成熟蛋白质部分,然后在每个子序列中分别提取特征,这些特征包括氨基酸组分,双肽组分以及氨基酸的物理化学性质,最后再把这些特征融合在一起作为整条序列的特征。通过夹克刀检验,该方法在NNPSL数据集上得到的原核生物蛋白质序列和真核生物蛋白质序列的预测精度分别是92.1%和87.8%。