论文部分内容阅读
近几十年来,公共数据库中的生物分子数据正以指数型的速度在增长。正是因为生物学对这些大量数据的处理和分析的需求,从而引发了生物信息学的诞生。它是利用数学、信息科学的理论、方法和技术去研究生物大分子以及它们的序列、结构和功能。在生物信息学中,机器学习方法已经成为解决这些生物学问题的一个重要手段。本文的工作主要是研究了基于支持向量机的生物序列分类问题的预测方法,其主要的贡献如下:在第二章,我们提出了一种预测拟南芥基因调控关系的计算方法。利用已有的调控数据,我们构建了拟南芥基因调控关系的正、负样本数据集。通过将基因表达谱数据和转录因子及其靶基因序列信息的结合,我们提出了一种新的特征向量来表示每一对基因转录调控关系。然后我们选用了支持向量机和夹克刀测试来验证提出的方法。实验的结果显示,我们的方法取得了98.39%的准确度,94.88%的敏感度以及93.82%的特异性。在第三章,我们提出了一种新的伪氨基酸模型来预测凋亡蛋白的亚细胞定位问题。我们采用了氨基酸的替换矩阵和协方差变换来提取蛋白质的序列特征并构建其特征向量。这种表示方法不仅定量的描述了蛋白质序列中氨基酸之间的差异性,而且考虑了部分氨基酸的序信息。通过与其他方法结果的比较,可以看出我们的方法达到了一个较好的预测精度。在第四章,我们构建了一个预测PCR扩增难易程度的数学模型。目前,对于PCR扩增问题大多数研究者主要关注的是实验过程,包括引物的设计等等,而对于PCR模板的分析却极为少见。在本文的研究中,我们主要关注DNA模板这一PCR实验对象,利用k-mer对DNA序列进行数值刻画,然后通过支持向量机对189条人类染色体的外显子序列进行了PCR扩增难易程度的预测。预测的结果表明我们的方法是可行的。