【摘 要】
:
蛋白质是地球上生物体的必要组成成分,针对蛋白质的功能预测已成为生物蛋白领域的一个研究热点。嗜热蛋白质可作极端环境下的生物催化剂,有着加速化学反应、降低工业制造成本、减少能源消耗等优点,因此针对嗜热蛋白质的有效功能预测在各类制造业中有着极为重要的作用。随着人类基因组计划的推进和实施,越来越多的蛋白质序列被测定,传统的蛋白质功能识别方法因其耗时长、效率低等缺点已无法满足需求,开发实时有效的蛋白质功能预
论文部分内容阅读
蛋白质是地球上生物体的必要组成成分,针对蛋白质的功能预测已成为生物蛋白领域的一个研究热点。嗜热蛋白质可作极端环境下的生物催化剂,有着加速化学反应、降低工业制造成本、减少能源消耗等优点,因此针对嗜热蛋白质的有效功能预测在各类制造业中有着极为重要的作用。随着人类基因组计划的推进和实施,越来越多的蛋白质序列被测定,传统的蛋白质功能识别方法因其耗时长、效率低等缺点已无法满足需求,开发实时有效的蛋白质功能预测方法迫在眉睫。机器学习算法的兴起和计算机计算能力的增强,为海量数据的信息挖掘提供了便利。本文主要研究了多核学习算法在蛋白质序列功能预测中的应用,具体研究内容如下:1)为了更好地表示蛋白质,本文提出了一种新的基于word2vec的特征提取方法。该方法将蛋白质序列看作一个文本句子,将二肽看作一个词语,使用word2vec算法将每个二肽转化为词向量表示,然后依据蛋白质序列中出现二肽对应的词向量得到序列的向量表示。实验结果表明,该方法可提升模型预测准确率。2)多核学习方法第一步是选取基础核函数,包括核函数个数、类别及其内部参数,由于常规方法盲目且耗时耗力,本文提出了基于贪心算法的核函数选择方法。该方法考虑特征向量主要源于不同的特征提取方法,故首先将特征提取方法个数作为核函数个数,然后针对特征向量中不同特征提取方法对应的特征组,使用贪心算法选出最佳核函数,从而得到基础核函数的选择结果。3)本文提出了基于多核学习的蛋白质序列分类模型。相对于其它方法,多核学习方法具有更高的灵活性。本文首先使用基于贪心算法的核函数选择方法完成基础核函数的选择,然后使用简单多核学习算法学习最佳组合核函数,最后使用最佳组合核作为核函数的SVM算法训练分类模型。实验结果表明,该模型能够很好地识别出嗜热蛋白质,在本文使用的嗜热蛋白质序列数据集上,10折交叉验证的结果为:准确率94.72%,嗜热蛋白质的召回率为94.84%,MCC值0.8939,ROCAUC值0.9859,优于其它机器学习方法和已有方法。4)开发了针对嗜热蛋白质序列预测的web服务,便于其他相关研究者使用本文提出的模型。
其他文献
随着化学工业的快速发展,水体污染及其危害已成为人们日益关注的环境问题。水体污染的治理问题已引起了研究人员的广泛关注。凹凸棒石是一种资源丰富、易于开采、成本低廉的
中心波长为1542 nm的全固态连续单频激光器具有低噪声、对人眼安全、波长位于铟镓砷等探测器的探测灵敏区及光纤和大气传输的低损耗窗口等优良特性,在光纤通信、人眼安全激光测距以及国防军事等领域均有重要的应用需求。此外,位于1542 nm附近的乙炔分子吸收线是国际计量局推荐的几种光频标准之一,因此可调谐的全固态连续单频1542 nm激光器在光频标的研制及其在光纤中的长距离分发等方面亦具有非常重要的应用
电致化学发光(Electrogenerated chemiluminescence,ECL)是一门应用十分广泛的分析技术,常用在食品分析、生化分析、环境监测和临床诊断等领域,它不仅结合了光分析所具有的高灵
随着核能的发展,放射性废水的处理成为亟待解决的环境问题之一,是人们广泛关注的焦点。铀具有强化学毒性及放射性,可以通过食物链累积,进入人体的循环系统,引起肾衰竭、甲状
本学位论文主要研究带马氏切换扩散过程的稳定性和树上p-Laplacian主特征值的估计问题.针对R_+× S上的带马氏切换的扩散过程(X_t,Λ_t)t≥0.本学位论文研究了该过程的指数稳定性,包括带马氏切换扩散过程的指数遍历的判别条件和指数遍历速率的显式估计.首先,利用Lyapunov函数理论,无穷小生成元和M-矩阵理论给出(X_t,Λ_t)t>0指数遍历的两种判别方法.其次,在固定环境Λ
能源问题和环境问题一直是近些年来的关注热点,世界各国致力于新能源的开发和利用。氢能因为能量密度高,无污染,可再生等优点,被认为是未来最有发展前景的能量载体。电解水制氢因为制备的氢气纯度高,技术相对比较成熟受到广泛青睐,但是工业上电解水制氢电压(1.8-2V)比理论上的电解水电压(1.23V)高很多,造成了极大的能量损失,能量损失主要来源于阴阳极催化剂的过电位。众所周知,贵金属Pt及其化合物是很好的
以内蒙古四子王旗农牧交错带栗钙土、灰褐土和草甸上三种土壤类型下草地和耕地为研究对象,采用野外调查与室内分析相结合的方法,对0—10 cm 土层土壤团聚体组成特征及其稳定性、土壤有机碳、各粒径团聚体有机碳含量和各粒径团聚体对有机碳的贡献率进行了对比分析。结果表明:栗钙土区耕地与同地点草地相比,>3 mm粒径团聚体含量下降了12.69%~59.12%,≤0.25 mm粒径团聚体含量升高了 22.
核电作为一种对人类和环境没有严重危害且较为成熟的电力供应技术,是解决能源危机的潜在动力来源。然而,核能的日益发展耗费了巨大的资源,也导致了大量的核废料产生。铀作为
随着后基因组时代的进入,作为蛋白质组学的一项分支,蛋白质亚细胞定位研究的热度与日俱增。蛋白质亚细胞定位研究中,基于蛋白质氨基酸序列的特征表达在定位预测阶段扮演着重
准东煤燃烧会释放大量的碱金属钠(Na)。释放的碱金属会引起结渣、腐蚀等问题,降低换热器的使用效率和减少锅炉的使用寿命。对准东煤燃烧过程中的碱金属释放进行在线检测,对准东煤的清洁利用,提高锅炉换热效率,保证设备安全运行具有重要意义。本文利用对准东煤的燃烧进行了在线检测分析。首先,设计并搭建了一个基于火焰发射光谱法的碱金属标定及煤颗粒燃烧实验检测台。对采集的光谱进行分析可以同时得到碱金属Na的特征谱线