【摘 要】
:
蛋白质的种类繁多、结构复杂,它承担着机体的多项生物学功能,被誉为人类生命活动的主要承担者。活性蛋白质作为一类具有特殊功能的蛋白质,可以调控机体生物学功能或构成抗体。因此,通过氨基酸序列准确识别出活性蛋白质,对于探索活性蛋白质复杂的生物学功能,以及更进一步了解其对生命体系的影响作用具有至关重要的意义。随着数据时代的到来,越来越多的研究者将基于计算的机器学习算法应用到蛋白质的识别研究中。本文通过多种机
论文部分内容阅读
蛋白质的种类繁多、结构复杂,它承担着机体的多项生物学功能,被誉为人类生命活动的主要承担者。活性蛋白质作为一类具有特殊功能的蛋白质,可以调控机体生物学功能或构成抗体。因此,通过氨基酸序列准确识别出活性蛋白质,对于探索活性蛋白质复杂的生物学功能,以及更进一步了解其对生命体系的影响作用具有至关重要的意义。随着数据时代的到来,越来越多的研究者将基于计算的机器学习算法应用到蛋白质的识别研究中。本文通过多种机器学习算法的性能比较,建立了基于优化计算的支持向量机识别模型,分别对免疫球蛋白和潜在可药物化蛋白这两种活性蛋白质进行识别研究以预测其功能性。对于免疫球蛋白的识别研究,本篇选择Profile–Based Cross Covariance(CC-PSSM)和mono Tri KGap方法提取氨基酸序列中的特征,将获取的特征输入到支持向量机模型中进行分析识别。与此同时使用朴素贝叶斯和随机森林算法做性能对比。另外,通过特征选择技术筛选更具鉴别能力的二维关键特征,并对这些特征的正反例数据分布进行分析。交叉验证的结果表明,mono Tri KGap(k=1)方法提取的特征能够准确识别99.56%的免疫球蛋白。CC-PSSM方法使用更具鉴别能力的混合二维关键特征可以识别89.47%的免疫球蛋白。该项研究方法为深入了解机体的防御功能提供了途径。对于潜在可药物化蛋白的识别研究,本文提出了基于集成支持向量机和混合特征结合的识别模型,称为Drug Hybrid_BS。该模型从多个角度提取氨基酸序列的特征信息,融合了mono Di KGap(k=2)、Cross Covariance和Grouped Amino Acid Composition三种类型的特征。并且研究对Bagging-SVM的参数(核函数和基模型个数)进行对比寻优。除此之外,本文还使用了交叉验证从特征组合和分类算法等方面验证了Drug Hybrid_BS模型的优越性。实验结果表明96.9944%的潜在可药物化蛋白可以被准确识别,独立测试集的准确率也达到了96.5665%。这都意味着Drug Hybrid_BS模型在潜在可药物化蛋白的识别方面具有可靠性。另外,混合的关键特征输入到集成的支持向量机中可识别80.0343%的潜在可药物化蛋白,这表明了该部分特征对于研究的重要意义。在未来的药物分子与靶点蛋白结合的研究中,本项研究开发的模型可有助于提高靶点蛋白的功能预测效率。
其他文献
捕食和竞争作为最常见的生物种间关系,在维持生物种群的持续存在和生态系统的平衡发展上起到很大作用。集团内捕食(Intraguild Predation:IGP)模型作为捕食和竞争同时存在的系统,在描述生态系统多样性、防治病虫害、解决物种入侵以及调节群落结构等方面具有重要意义。此外,随着全球濒危物种不断增加,研究具有Allee效应的捕食模型,对濒危物种的保护具有重要价值。为此,本文建立了三类带强All
间歇过程作为主要的现代生产方式之一,它在现代工业生产中扮演重要的角色。随着人们对产品质量和多样性需求的提升,生产过程、生产设备和生产环境也变得愈加的复杂,随之而来的不确定性、外部干扰、时滞以及多阶段性等问题却严重阻碍了产品质量的提升。因此,设计先进优化控制方法就显得十分迫切。本文的研究工作如下:针对间歇过程中的不确定性、干扰和系统状态不可测问题,设计了一种基于PSO的间歇过程2D输出反馈鲁棒约束模
间隔是相继顺序统计量之间的差,其在拟合优度检验、独立性检验等领域中的应用十分广泛。由n个元件构成的一个串联系统在某时刻失效时,系统中恰好有n-1个元件没有失效,那么这些未失效的元件可用于寿命测试或者运用到其它系统中去。本文基于这些未失效的元件,引入了条件间隔和标准化条件间隔的概念。首先,对于具有n个独立同分布元件构成的串联系统在某时刻失效时的条件间隔,得到了元件寿命为任意分布时条件间隔的生存函数和
郭璞作为两晋之交的重要作家,诗赋俱佳,足冠中兴。钟嵘品其五言,将之归于楚辞一脉。基于此,有必要探讨郭璞与屈骚之间的渊源关系。郭璞出身寒素,天性好奇,思想颇为复杂。由于身处乱世,郭璞被动地卷入权力争斗的漩涡之中,他才高而位卑,饱学却遭人歧视。他渴望摆脱迫厄之境,追求自由。故其作品多慷慨之辞,与楚辞抒写伤时不遇而自疏之间存在共鸣,可视为屈骚怀抱的隔世回响。其文艳逸,在艺术精神上与屈骚因势而贯通。具体表
随机微分方程本质上是带有随机项和随机系数的偏微分方程。因为随机微分方程能够准确地刻画系统的运行状态,所以随机模型在很多科学和工程分支中起着重要的应用,例如随机控制、自动化、生物数学、滤波等。因此研究随机微分方程解的存在唯一性和稳定性具有重要意义。本文主要研究了分布依赖的随机微分方程、由G-布朗运动驱动的随机微分方程及由G-Lévy过程驱动的随机微分方程解的性质。具体内容如下:带奇异系数的分布依赖的
自二十世纪八十年代,法律语言学逐步在我国建立法律语言学科,我国法律语言学的理论研究逐渐形成系统,越来越多的学者投身到法律语言的研究中来。从专注于法律语言学本体研究到法律语言学理论应用于汉语法律语言的实践,我国法律语言学的研究成果日渐丰硕,其中以法律专著为基础研究汉语法律词汇的成果颇多。而我们选择以《汉语大词典》作为基础语料研究汉语断代法律词汇,可以更为全面地搜罗汉语法律词汇,更全面地展示宋代法律词
朱敦儒作为宋词发展演变的代表人物,其人及其词集《樵歌》都具有很高的研究价值,词这一文体从南唐五代一路发展至朱敦儒初入词坛的北宋时期,其创作整体水平已经达到了一个相当的高度,这就给朱敦儒提供了一个良好的学习背景,对其创作也产生了重要的影响。朱敦儒的早期艳情词明显能够看出对于花间传统和周、柳的模仿,但随着其自身独特人生经历的变化,其创作心态也不断进行着演变,最终形成了独特的创作特征,并且承苏启辛,在整
随着信息时代的发展,生物信息学迅速发展。在这个数据时代,掌握了数据就有了进一步发展的可能,因为数据中包含了许多我们未知的信息,需要我们去开发和利用。蛋白质是生命的基础,在疾病的预防和治疗方面蛋白质序列研究是必要的,所以我们需要去开发蛋白质序列中存在的大量信息,只有开发出我们真正需要的信息,才能让收集的这些蛋白质序列有更大的存在意义和价值,本文我们主要采用基于数字特征的方法来识别蛋白质序列。许多疟疾
从多多的《手艺》,到臧棣与张枣等人对“后朦胧诗”进行总结时,一条关于当代诗歌生成动力与目标的脉络就已开始浮现。这一脉络的首要特征便是对诗歌本体、写作行为与写者姿态的重视。继而形成了一套有关诗歌写作的价值准则。与之相对应的语境,则是宏大叙事诗歌体系的瓦解。本文认为,后朦胧诗的内核正是臧棣所说的“后朦胧性”。这一概念属于一种开放性的实践逻辑,现代性思维框架在其中发挥着极大的作用。这一性质始终在追问着个
对现代性的研究中非常关键的一部分是对视觉现代性的研究,可以说现代化进程也是一个视觉转向的过程,这一过程的影响也体现在中国诗界革命中。当面对着新兴城市的崛起、以技术为基要的媒介工具的出现以及以进步为核心要义的理论开始盛行,诗人群体的传统知觉模式逐渐破碎,一种新的感知框架在历史场域中展露。在其中,主体的经验变得流动且分裂,此种分心裂变的力量孕育着新诗的语言,伴随着新文化运动对国语的要求,文言和白话在诗