基于数字特征的疾病蛋白和嗜热蛋白识别方法研究

来源 :海南师范大学 | 被引量 : 0次 | 上传用户:liuguoqiangswu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,生物信息学迅速发展。在这个数据时代,掌握了数据就有了进一步发展的可能,因为数据中包含了许多我们未知的信息,需要我们去开发和利用。蛋白质是生命的基础,在疾病的预防和治疗方面蛋白质序列研究是必要的,所以我们需要去开发蛋白质序列中存在的大量信息,只有开发出我们真正需要的信息,才能让收集的这些蛋白质序列有更大的存在意义和价值,本文我们主要采用基于数字特征的方法来识别蛋白质序列。许多疟疾感染是由恶性疟原虫引起的。疟原虫分泌的蛋白质的准确分类对于抗疟疾药物的开发至关重要。因此,为了提高疟原虫分泌蛋白识别的准确性,我们建立了MGAP-SGD分类模型。利用Monodik Gap(k=7)提取分泌蛋白的数字特征,然后采用Ada Boost方法选择最优数字特征。最后,基于最优分泌蛋白集,利用随机梯度下降(SGD)算法对分泌蛋白进行识别。模型经过10倍杂交和独立测试集验证,准确率分别为98.5859%和97.973%。这也充分了MGAP-SGD模型的预测性能的有效性和稳定性,能够满足疟原虫分泌蛋白序列的识别需求。蛋白质的热稳定性是蛋白质的生物化学和生物技术研究中不可或缺的部分,所以正确的将嗜热蛋白分类是非常重要的。我们建立了一个模型diMonoKGap-SMO,该模型首先使用diMonoKGap提取嗜热蛋白的数字特征,然后在Ada Boost模型中选取435个数字特征,最后在8倍交叉验证下,利用基于序列最小优化算法(SMO)识别嗜热蛋白,我们的准确率达到98.1232%。为了证明我们建立的模型的稳定性和鲁棒性,我们将处理完成后的数据随机选取80%的数据作为训练集,剩余20%的数据作为预测集来检验模型,分类效果为97.654%。噬菌体已经严重影响到了全球的生化系统,不仅如此噬菌体还关乎到我们的身体健康,在医疗中许多的癌症研究和皮肤感染都和噬菌体有关,所以我们需要准确地识别噬菌体蛋白。我们建立了一个模型Pseudo-188D,该模型通过方法Pseudo KNC提取噬菌体的数字特征,利用Ada Boost工具挑选合适的向量,再结合188D提取的数字特征,然后将提取的数字特征结合在一起,最后通过随机梯度下降算法识别噬菌体病毒蛋白序列,我们的模型识别效果达到了93.4853%。为了验证我们模型的稳定性,我们将下载的数据随机选取80%来训练模型,使用剩余的20%数据验证我们建立的模型。
其他文献
视觉目标跟踪算法是计算机视觉领域中一个十分热门的研究方向,在智能交通、视频监控、医学诊断、人机信息交互等多个重要领域内都有着广泛地应用。对于某个视频序列,视觉目标跟踪任务就是在给定初始帧中感兴趣目标状态的情况下,预测出后续帧中该目标的新的位置与状态。近年来,深度学习在目标跟踪算法上大放异彩,使得基于孪生网络的目标跟踪算法被广泛关注。但目标跟踪算法在实际应用中仍然面临着许多挑战,例如局部遮挡、外观形
学位
近年来,分数阶微分方程的初值问题得到了广泛的研究。随着Riccati方程在大气科学、物理学、控制科学和工程等越来越多的科学领域出现,对Riccati方程解的研究显得尤为迫切。迄今为止,常指标分数阶Riccati方程初值问题解的相关研究已经取得了很多成果。但是对于变指标分数阶Riccati方程解的研究却很少,特别是对其初值问题上解存在唯一性的研究更是少之又少。而本文的主要工作是在常指标分数阶Ricc
学位
Leibniz代数是一类重要的非交换、非结合代数,而幂零Leibniz代数是结构理论中的主要研究对象之一。代数的局部导子与局部自同构是近年来的一个活跃研究课题。基于二步幂零Leibniz代数的自同构以及三维不可分解幂零Leibniz代数在同构意义下的分类,本文利用矩阵与线性方程组理论,刻画了三维不可分解幂零Leibniz代数的局部导子与局部自同构,给出了局部导子与局部自同构的具体矩阵表达式。
学位
捕食和竞争作为最常见的生物种间关系,在维持生物种群的持续存在和生态系统的平衡发展上起到很大作用。集团内捕食(Intraguild Predation:IGP)模型作为捕食和竞争同时存在的系统,在描述生态系统多样性、防治病虫害、解决物种入侵以及调节群落结构等方面具有重要意义。此外,随着全球濒危物种不断增加,研究具有Allee效应的捕食模型,对濒危物种的保护具有重要价值。为此,本文建立了三类带强All
学位
间歇过程作为主要的现代生产方式之一,它在现代工业生产中扮演重要的角色。随着人们对产品质量和多样性需求的提升,生产过程、生产设备和生产环境也变得愈加的复杂,随之而来的不确定性、外部干扰、时滞以及多阶段性等问题却严重阻碍了产品质量的提升。因此,设计先进优化控制方法就显得十分迫切。本文的研究工作如下:针对间歇过程中的不确定性、干扰和系统状态不可测问题,设计了一种基于PSO的间歇过程2D输出反馈鲁棒约束模
学位
间隔是相继顺序统计量之间的差,其在拟合优度检验、独立性检验等领域中的应用十分广泛。由n个元件构成的一个串联系统在某时刻失效时,系统中恰好有n-1个元件没有失效,那么这些未失效的元件可用于寿命测试或者运用到其它系统中去。本文基于这些未失效的元件,引入了条件间隔和标准化条件间隔的概念。首先,对于具有n个独立同分布元件构成的串联系统在某时刻失效时的条件间隔,得到了元件寿命为任意分布时条件间隔的生存函数和
学位
郭璞作为两晋之交的重要作家,诗赋俱佳,足冠中兴。钟嵘品其五言,将之归于楚辞一脉。基于此,有必要探讨郭璞与屈骚之间的渊源关系。郭璞出身寒素,天性好奇,思想颇为复杂。由于身处乱世,郭璞被动地卷入权力争斗的漩涡之中,他才高而位卑,饱学却遭人歧视。他渴望摆脱迫厄之境,追求自由。故其作品多慷慨之辞,与楚辞抒写伤时不遇而自疏之间存在共鸣,可视为屈骚怀抱的隔世回响。其文艳逸,在艺术精神上与屈骚因势而贯通。具体表
学位
随机微分方程本质上是带有随机项和随机系数的偏微分方程。因为随机微分方程能够准确地刻画系统的运行状态,所以随机模型在很多科学和工程分支中起着重要的应用,例如随机控制、自动化、生物数学、滤波等。因此研究随机微分方程解的存在唯一性和稳定性具有重要意义。本文主要研究了分布依赖的随机微分方程、由G-布朗运动驱动的随机微分方程及由G-Lévy过程驱动的随机微分方程解的性质。具体内容如下:带奇异系数的分布依赖的
学位
自二十世纪八十年代,法律语言学逐步在我国建立法律语言学科,我国法律语言学的理论研究逐渐形成系统,越来越多的学者投身到法律语言的研究中来。从专注于法律语言学本体研究到法律语言学理论应用于汉语法律语言的实践,我国法律语言学的研究成果日渐丰硕,其中以法律专著为基础研究汉语法律词汇的成果颇多。而我们选择以《汉语大词典》作为基础语料研究汉语断代法律词汇,可以更为全面地搜罗汉语法律词汇,更全面地展示宋代法律词
学位
朱敦儒作为宋词发展演变的代表人物,其人及其词集《樵歌》都具有很高的研究价值,词这一文体从南唐五代一路发展至朱敦儒初入词坛的北宋时期,其创作整体水平已经达到了一个相当的高度,这就给朱敦儒提供了一个良好的学习背景,对其创作也产生了重要的影响。朱敦儒的早期艳情词明显能够看出对于花间传统和周、柳的模仿,但随着其自身独特人生经历的变化,其创作心态也不断进行着演变,最终形成了独特的创作特征,并且承苏启辛,在整
学位