【摘 要】
:
孤儿基因又被称为谱系特有基因,是指在一个谱系中特有并且与其他谱系所有基因没有序列相似性的基因。孤儿基因在许多植物的环境适应性方面起着重要作用,对孤儿基因的识别是了解其生物学功能的关键一步。传统的生物学方法识别物种中的孤儿基因需要耗费大量的时间、物力和人力,同时容易受到计算方法的影响。因此,开发一种高效、高精度的孤儿基因识别计算方法具有重要意义。针对二分类任务,大多数传统机器学习模型的性能依赖于特征
论文部分内容阅读
孤儿基因又被称为谱系特有基因,是指在一个谱系中特有并且与其他谱系所有基因没有序列相似性的基因。孤儿基因在许多植物的环境适应性方面起着重要作用,对孤儿基因的识别是了解其生物学功能的关键一步。传统的生物学方法识别物种中的孤儿基因需要耗费大量的时间、物力和人力,同时容易受到计算方法的影响。因此,开发一种高效、高精度的孤儿基因识别计算方法具有重要意义。针对二分类任务,大多数传统机器学习模型的性能依赖于特征的质量,这往往要求研究人员有丰富的领域知识,同时人工构建的特征向量会丢失蛋白质序列中的原始信息。近些年来,在生物信息学领域,深度学习因为学习能力强、覆盖范围广、可移植性好等优势而被广泛应用。本研究旨在用深度学习模型从禾本科植物蛋白质序列中提取高阶特征,用以解决禾本科植物孤儿基因识别的问题。本文主要研究内容包括以下几个方面:1)基于传统生物学方法识别物种中孤儿基因所存在的问题,提出了基于循环神经网络和Transformer模型的禾本科植物孤儿基因识别方法。循环神经网络通过其独特的模型结构能够计算序列中各个观测值之间的相互信息。Transformer模型利用多头自注意力机制能够更好地处理蛋白质序列以及汇总序列中的依赖关系信息。通过对比不同模型在验证集和独立测试集上的性能发现Transformer模型的性能要优于循环神经网络模型,该结果显示了Transformer模型提取的特征要比循环神经网络模型提取的特征更加能够分辨出孤儿基因。2)由于Transformer中多头自注意力机制计算的复杂性,导致模型在处理长序列时效率低下。基于此问题提出了CNN-Transformer模型用于处理禾本科植物孤儿基因识别问题,该模型由两个多核一维卷积层和一个Transformer层构成。相较于Transformer模型,CNN-Transformer中的一维卷积层能够提取蛋白质序列中的k-mers特征从而减少蛋白质序列的长度,Transformer层能够捕获kmers特征与特征之间的相互关系。由实验结果可知,CNN-Transformer在三个独立测试集上的平衡准确率BA值都是最高的,分别达到了0.901、0.906和0.880。针对同样的测试集,RNN,LSTM、GRU和Transformer模型的BA、GM、BM和MCC值均低于CNN-Transformer模型。以上结果可知CNN-Transformer的模型结构能够有效的解决Transformer模型所存在的缺点。3)设计开发了禾本科植物孤儿基因识别系统,该系统基于Vue和ElementUI编写了前端框架,Spring Boot和IDEA实现后端代码,My SQL做数据持久化存储。系统集成了禾本科植物孤儿基因识别,孤儿基因数据集下载两个功能模块,用户可通过该系统实现禾本科植物孤儿基因识别和对已发布的孤儿基因数据集进行下载,本系统为孤儿基因的后续研究提供了技术支持。
其他文献
目的 研究硬通道硬膜下穿刺预减压联合开颅术治疗急性硬膜下血肿并脑疝的临床效果。方法 选取普宁华侨医院颅脑外科2020年6月至2022年6月收治的急性硬膜下血肿并脑疝患者40例,采用随机数表法分为对照组和观察组,每组各20例。对照组实施标准外伤大骨瓣开颅术治疗,观察组采取硬通道硬膜下穿刺预减压联合开颅术治疗。统计致残率、病死率、并发症发生率,采用生活质量评价量表(SF-36)对生存质量进行评定并对比
<正>国家坚定不移实现双碳战略,故而新能源电动汽车得到了高速发展。中汽协数据显示,2022年我国新能源汽车产销取得产销666.3万辆、649.8万辆的成绩,乘用车市场占有率已超四分之一。新能源汽车汇集了各行业的先进科技,其中无人驾驶技术就是一大亮点。它不仅能够解放驾驶员的双手,还直接关乎驾驶安全,备受行业关注。
近年来,我国农业信息化建设不断推进,大幅度提高了农业效益,增加了农民收入。但由于目前谷类作物领域信息化建设还不完善,网络中海量的谷类作物知识大多是非结构化或半结构化形式,农民、专家等相关从业者很难及时准确的从传统搜索引擎中获取所需信息。因此,本文拟构建一个基于知识图谱的问答系统,能将网络中碎片化的谷类作物知识转化为结构化知识存储,对促进谷类作物领域信息化发展具有重要意义。本文基于知识图谱和问答系统
鸟害普遍存在于各领域,面向鸟类的目标检测与识别具有重要意义。传统的鸟类检测与识别依赖人工,要求专家有较好的知识与经验储备,稳定性、效率较低。深度学习持续地发展,可将目标检测技术运用于此,以提升检测与识别效率。YOLOv3在该领域展现优异的水平,有结构简单、复现性好等特点。本文采用该算法为原始模型,通过若干改进策略以提升模型性能,且构建鸟类检测系统。主要工作如下:1)构建基于卷积神经网络的鸟类检测模
推荐系统通过分析用户与物品的历史交互行为来获取用户的偏好,挖掘用户的潜在需求,进而向用户推荐其可能感兴趣的商品。在当前常见的农产品推荐系统中,大部分模型没有充分使用用户与农产品的评论、评分等交互数据,因此难以学习到较为准确的用户偏好,导致推荐效果不佳。条件生成对抗网络以生成对抗网络为基础,能够较好地拟合输入的数据的分布。为了学习更为准确的用户偏好,本文通过融合BERT与图卷积神经网络,从用户与农产
花生作为我国常见的油料作物之一,幼苗期草害严重危害了花生的产量和品质,制约了花生生长。人工智能的飞速发展,大大提升了除草机器人的效率,但花生幼苗期伴生杂草叶片相似、田间背景复杂、光照强度多变以及目标遮挡等因素加大了研究难度。现有的机器除草搭载模型大、运算速度慢,多采用拍摄识别。因此,研究一种能够实现田间条件下实时、准确识别花生幼苗和杂草的算法对除草机器人的研发应用具有重要意义。本文主要研究工作和创
小麦在全世界范围内有着广泛的种植面积,小麦赤霉病害导致粮食大规模减产时有发生。为了应对赤霉病害的爆发,通常采用提前喷洒农药预防赤霉病害,但是在农药喷洒过程中经常出现药物滥用问题,不仅污染环境,而且增加了种植成本。为了更好解决农药污染、减少农药的滥用问题,准确、迅速的识别小麦赤霉病害并鉴定等级具有指导生产的作用。随着卷积神经网络发展,为赤霉病害的无损检测提供了理论依据。为了识别小麦赤霉病害并且对赤霉
光合作用维持植物自身生长,保持生态环境碳氧稳定性,反应光合速率大小成为植物光合监测的关键环节。本课题研制的光合仪因为现有设备中缺少同类型的移动监测方法,监测过程存在操作步骤繁冗、数据共享性偏差、仪器体积大且不方便携带等缺点,影响本系列仪器的用户体验和应用能力。本研究针对植物光合监测操作过程中存在的缺陷,设计以Android移动端监测方法为核心的便携式、可自主拆卸监测仪。通过3D建模集成,以草莓和天
基于农业科技高速发展的大背景下,依赖于移动机器人来有效地提升农业作业效能,是一种必然的发展方向。移动机器人的路径规划问题又是其技术研究的重要内容。路径规划所代表的含义是机器人的最优路径规划问题,就是按照工作成本最低、行驶时间最少、行驶的路径最佳等,在真实的作业环境里面,寻求一条由起点至终点的最佳路线,以保证安全且有成效地规避障碍。本论文基于实验果园采用双向A*与APF算法并对其优化,可以较为顺利地
随着科技的发展与无线传感技术的成熟,农业生产正向着无人化迈进。农业机械作为无人化建设的重要组成部分,正由传统化向智能化进行转变。利用靶向喷药机器人针对病害作物进行精准施药,可大大降级农药对环境的污染。而具有定位导航功能的靶向喷药机器人,能够减少农民生产负担,有效地减少农药对人体的危害、提高产量、降低生产成本、扩大农民的生产规模。本文针对农业田间环境及温室大棚,研究了靶向喷药机器人定位导航技术,并开