【摘 要】
:
蛋白质是人类机体的重要组成并且机体内几乎所有的活动都需要具有特定功能的蛋白质参与。蛋白质的空间结构决定其主要功能。因此对于蛋白质结构的研究有助于更好的了解它的功能。但并不能直接通过模拟蛋白质的折叠过程来了解它的空间结构。然而蛋白质是由氨基酸序列组成的,因此,通过氨基酸序列来预测蛋白质的二级结构进而了解它的三维构象便成为了一种常用的方法。在大数据、云计算和人工智能快速发展的时代背景下,采用机器学习的
论文部分内容阅读
蛋白质是人类机体的重要组成并且机体内几乎所有的活动都需要具有特定功能的蛋白质参与。蛋白质的空间结构决定其主要功能。因此对于蛋白质结构的研究有助于更好的了解它的功能。但并不能直接通过模拟蛋白质的折叠过程来了解它的空间结构。然而蛋白质是由氨基酸序列组成的,因此,通过氨基酸序列来预测蛋白质的二级结构进而了解它的三维构象便成为了一种常用的方法。在大数据、云计算和人工智能快速发展的时代背景下,采用机器学习的方法对蛋白质的二级结构进行预测已经成为生物信息学中的一个研究热点。基于决策树森林模型及机器学习技术,本文深入研究了蛋白质的八类二级结构预测,主要研究内容如下:针对蛋白质的八类二级结构预测问题,提出了一种基于梯度提升的决策森林预测算法。该算法基于氨基酸序列的PSSM谱特征采用交叉熵损失函数的二阶泰勒近似作为优化目标,以决策树确定的映射函数作为优化参数,通过贪婪地在特征值上选取最佳分裂点来构造决策树。此外,为了防止过拟合,进一步在目标函数中引入了2L正则化项,以便控制模型的复杂度。在标准的CB513蛋白质二级结构评估数据集上,本文提出的算法达到了64.89%的8Q准确率。针对梯度提升决策森林算法运行速度慢的缺点,本文基于直方图思想提出了一种快速梯度提升的预测模型。该模型通过直方图的方法将样本特征离散化,对于大量的样本数据采用单边梯度技术对数据进行采样,并采用特征绑定技术对多维特征进行降维,实现了样本数量和特征两个维度的并行。通过大量的实验对影响模型性能的指标进行分析,实验结果表明,基于本文所提出的快速梯度提升算法对蛋白质的二级结构进行预测,在测试集上的8Q准确率达到了66.35%。另外,在同样的数据集上,相对于其他算法来比较,本文所提出的算法运行速度非常快,时间复杂度很小。
其他文献
中学语文教学效果不显著的直接原因是今天的中学语文课堂一片沉闷。为了改变这凄惨的现状,我认为教师、学生都应该有所改变,争取让我们的语文教学效果好起来,让中学语文课堂
目的:观察泛福舒及猴枣散联合治疗儿童反复呼吸道感染疗效及对免疫球蛋白的影响,并探讨其作用机制。方法:102例反复呼吸道感染患儿分为治疗组58例和对照组44例,治疗组予口服
阐述了重油FCC催化剂研究的关键技术——基质技术和分子筛技术,并对其研究现状作了详细介绍,指出研究重点是改善基质和沸石分子筛孔道结构,提高沸石分子筛的活性及水热稳定性。
根据目前高职院校校企合作的现状,笔者在多年研究和探索的基础上,提出"双线并行"校企融合人才培养模式,并依此采用软件工程的原理设计高职校企融合人才培养管理平台。该平台
柔性管理作为工业时代人力资源管理领域的重要产物,以其可以激发员工创造力、适应不确定内外环境、满足市场长尾需求等优势,在全球经济类型转变的过程中逐渐取代硬性管理。文
目的探讨新疆哈萨克族脂肪肝患者与血清鸢尾素水平之间的关联关系。方法于2015年11月-2016年12月在新疆木垒哈萨克自治县中选取的哈萨克族脂肪肝患者60例为观察组,其中男性46
天然林植物多样性保护对于其生态服务功能至关重要,而林分个体大小、群落特征及乔灌草垂直结构对其变化的贡献及最主要影响因子的揭示,将有助于基于林分结构调整提升植物多样
随着我国社会经济及科技水平的迅速发展,推动了煤炭行业的不断前进,当前时代对该行业的质量要求也越来越高。煤炭企业作为我国经济建设发展的重要组成部分,在新时代面临着严
随着我国人口全面步入老龄化,如何为老年用户群体提供安然舒心的居住环境,成为当代社会的紧要问题。文章主要立足于老年人的情感需求,从实用、审美、反思三个层面加以分析,并