基于支持向量机的生物数据分析方法研究

来源 :上海师范大学 | 被引量 : 6次 | 上传用户:bingdongfenxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,公共数据库中的生物分子数据正以指数型的速度在增长。正是因为生物学对这些大量数据的处理和分析的需求,从而引发了生物信息学的诞生。它是利用数学、信息科学的理论、方法和技术去研究生物大分子以及它们的序列、结构和功能。在生物信息学中,机器学习方法已经成为解决这些生物学问题的一个重要手段。本文的工作主要是研究了基于支持向量机的生物序列分类问题的预测方法,其主要的贡献如下:在第二章,我们提出了一种预测拟南芥基因调控关系的计算方法。利用已有的调控数据,我们构建了拟南芥基因调控关系的正、负样本数据集。通过将基因表达谱数据和转录因子及其靶基因序列信息的结合,我们提出了一种新的特征向量来表示每一对基因转录调控关系。然后我们选用了支持向量机和夹克刀测试来验证提出的方法。实验的结果显示,我们的方法取得了98.39%的准确度,94.88%的敏感度以及93.82%的特异性。在第三章,我们提出了一种新的伪氨基酸模型来预测凋亡蛋白的亚细胞定位问题。我们采用了氨基酸的替换矩阵和协方差变换来提取蛋白质的序列特征并构建其特征向量。这种表示方法不仅定量的描述了蛋白质序列中氨基酸之间的差异性,而且考虑了部分氨基酸的序信息。通过与其他方法结果的比较,可以看出我们的方法达到了一个较好的预测精度。在第四章,我们构建了一个预测PCR扩增难易程度的数学模型。目前,对于PCR扩增问题大多数研究者主要关注的是实验过程,包括引物的设计等等,而对于PCR模板的分析却极为少见。在本文的研究中,我们主要关注DNA模板这一PCR实验对象,利用k-mer对DNA序列进行数值刻画,然后通过支持向量机对189条人类染色体的外显子序列进行了PCR扩增难易程度的预测。预测的结果表明我们的方法是可行的。
其他文献
研究系由民初的进步党演化而来,其代表人物有梁启超、张东荪、张君劢、蒋百里和蓝公武等。五四时期他们致力于对社会改造理论的阐发,继续在思想文化和社会政治领域发挥了重大
“联省自治”思潮从清末最初出现,到1920年代形成轰轰烈烈的联省自治运动,前后经历了二十多年,其间大致可分为三个阶段。第一个阶段是伴随着清王朝封建专制的危机和资产阶级
<正>深入基层宣传贯彻党的十九大精神,把广大群众思想统一到党的十九大确定的各项任务上来,是新时代实现中国梦的必然要求。在群众中广泛宣传贯彻党的十九大精神,有利于广大
安溪铁观音网络销售渠道广泛,情况复杂,近年因质量监管缺失、原产地把控不严、售后服务不到位等问题致使安溪原产地铁观音的销售受到冲击,电子商务市场秩序急需整治,安溪铁观音网
物理概念的形成和掌握过程是学生一个认知心理发展的过程,学生只有在对概念理解的基础上,才能与原有知识进行整合、吸收,逐步形成新的物理概念。所以,在中学物理教学中,让学
针对大学生创新实验室开放时间长,安全隐患多等问题,结合实验室实际情况,建立了以诚信为基础的预约制度和导师制为基础的培训制度,这些措施为实验室安全提供了基本保障。实验