【摘 要】
:
目前蛋白质序列的数量急剧增加,而每年已知结构的蛋白质数量却增长缓慢,因此迫切的需要开发快速、准确地计算工具来预测蛋白质的相互作用。本论文围绕蛋白质相互作用预测的几个
论文部分内容阅读
目前蛋白质序列的数量急剧增加,而每年已知结构的蛋白质数量却增长缓慢,因此迫切的需要开发快速、准确地计算工具来预测蛋白质的相互作用。本论文围绕蛋白质相互作用预测的几个重要方面:蛋白质特征提取方法,机器学习算法以及集成学习算法展开研究,目的是要得到一种能够快速、有效蛋白质相互作用进行预测的方法。蛋白质相互作用预测问题,本质上是一个模式识别问题。我们进行的研究是蛋白质氨基酸序列是唯一决定蛋白质相互作用的因素,并且对于相同类别的蛋白质,其氨基酸序列存在某种内在的规律性,这种内在规律用数学公式来表达是十分困难的。用机器学习的方法来进行蛋白质相互作用预测,是一个有监督学习过程,通过已知类别的蛋白质序列样本来训练神经网络、支持向量机、贝叶斯神经网络等机器学习模型,让其学习到蛋白质序列内部的规律,从而使其在遇到未知类别的蛋白质时可以做出科学合理的判断。和其他模式识别问题一样,氨基酸序列特征提取是用机器学习算法进行蛋白质相互作用预测的首要工作。特征提取就是将用字母表示的氨基酸序列转变成具有固定维数的数据向量。进行蛋白质相互作用预测中首要步骤是进行氨基酸特征提取,特征提取方法是否得当对于模型的预测精度有至关重要的影响。蛋白质特征提取方法有很多,主要是针对蛋白质的氨基酸序列的有氨基酸组成模型、二肽模型、多肽模型、伪氨基酸组成(PseAA)、针对性质的有理化性质模型(PCC)和重现量化分析(RQA)等。本文通过best-first特征筛选策略得到了一种新的特征组合:理化组成模型和重现量化分析,并且对其进行了特征融合。常用的二分类器方法有K近邻方法(KNN)、贝叶斯网络、人工神经网络(ANN)、柔性神经树(FNT)等。但蛋白质相互作用的预测是典型的分类问题,用上面提到的几种分类器进行简单的分类,预测结果并不理想。因此,处理多这个分类问题需要在特征上下功夫。本文在进行Human数据集的蛋白质相互作用预测时,分类器采用了人工神经网络,网络系数的优化算法采用了粒子群优化算法(PSO),通过这样的组合取得了较好的预测效果。本文分别用自协方差编码和共鸣识别模型构建分类模型,其中用自协方差编码分类模型在Human数据集上取得了83.5%的预测精度,共鸣识别模型在Human数据集分别取得了81.9%的预测精度。这也证明本文工作的有效性。
其他文献
Brown运动作为具有连续时间参数和连续状态空间的一个随机过程,是一个最基本、最简单同时又是最重要的随机过程。它又是迄今了解最清楚,性质最丰富多彩的随机过程之一。在经
定向增发具有融资速度快、融资成本低、准入条件较为宽松的优点,受到了上市公司的广泛认可,成为我国资本市场上最受欢迎的再融资方式。上市公司定向增发引入战略投资者,不仅
非线性波方程是许多非线性现象的一个数学模型,非线性波方程的解是研究非线性现象的重要理论基础,从而求解非线性波方程的精确解是非线性科学的重要部分.随着科学技术的发展
作为地表生态系统的重要生物参量,叶面积指数(Leaf Area Index,LAI)在作物长势监测、作物估产及全球变化等领域有重要意义。由于卫星传感器噪声、大气影响、地表复杂性等因素,导致反演得到的叶面积指数产品存在误差。为了满足应用要求,须对产品进行真实性检验,以便验证叶面积指数遥感产品能否达到精度要求。尽管全球已出现众多真实性检验理论与方法,但尚未形成系统的工作以实现业务化运行。为实现LAI产
近些年来,随着移动智能设备的普及和各类传感器技术的快速发展,为图像数据的采集和获取提供了许多新的思路和方法,基于图像数据的视觉感知应用和服务在各个领域表现出巨大的
在代数表示理论中,倾斜理论是重要工具之一,譬如当直接研究代数A比较困难时,我们可以通过构造一个A模TA(称为倾斜模),将问题转化到一个相对比较容易研究的代数B=EndTA上,这样
以意大利为主的欧洲发达国家已经提前进入了老龄化社会,意大利作为欧洲老龄化较为严重、失智人口众多的国家,其应对失智老年问题的时间长实践丰富,尤其是在失智症老年建筑领
进程代数研究的核心内容之一是讨论进程之间的行为等价或精化关系。传统的行为等价或精化关系不考虑动作的类型,它们不适合处理具有输入输出的计算模型。最近,Fábregas等人基
近年来,分数阶微积分理论发展迅速,并且在社会学、物理学、经济学和生物学等诸多热门的研究领域都具有十分广泛的应用价值和广阔的应用前景。作为分数阶微积分在生态学和生物学中应用的主要的研究方向之一——研究分数阶种群模型具有非常重要的现实意义。另外,对传染病模型的研究对于疾病的预防、预测和控制等方面具有重要意义。本文在阐述和概括已有的生物模型成果的基础上,应用图理论、稳定性理论、微分包含理论、拓扑度理论等
21世纪是创新化、智能化的时代,随着科学技术的不断进步和新材料的创新研发,纺织复合材料的发展也突飞猛进。其发展已从开始的刚性复合材料一支独大,逐渐转变为刚性、柔性复