基于卷积神经网络的人类疾病相关问题预测研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:hongxingdehong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
疾病是机体在一定病因作用下自稳调节絮乱而发生的异常生命活动过程。从分子生物学角度来看,疾病通常是由于蛋白质质和量的改变导致的细胞功能絮乱,最终引起的人体某个或某些器官的异常工作。在分子生物学中,与疾病相关的生物表征、关联性问题等研究在疾病分析、诊断和疾病治疗等方面都发挥了重要作用。基于分子生物学实验的方法能够得到较为准确且置信度高的实验结果,但实验成本高、效率较低且无法验证所有可能的样本。而基于计算机辅助算法的研究方式成本低、效率高且能够就未知信息进行预测性分析,从而大大弥补了分子生物学实验的不足,且能够对分子生物学实验方法提供一定指导作用。因此,本文主要对与人类相关的疾病问题展开基于计算机辅助算法的预测性研究。已知与人类疾病相关的问题众多,本文选择了关注度较高的三类问题深入开展预测研究,包括:核糖体停靠位点预测问题、人类与病毒间蛋白质-蛋白质相互作用(Human-Virus protein protein interaction,HVPPI)预测问题和长链非编码RNA(Long non-codingRNA,lncRNA)与疾病的相关性预测问题。考虑到以卷积神经网络(Convolutional Neural Networks,CNNs)为代表的深度方法能够自动提取特征、且能对输入特征进行平移不变分类等特性,本文主要采用CNNs方法深入开展上述三类预测问题研究。本文主要工作如下:(1)在核糖体停靠位点的预测问题中,本文提出了一种新的基于多特征卷积神经网络的核糖体停靠位点预测方法——Deep Rib St。首先,针对已有方法特征选择过于单一,忽视有效生物学先验知识对深度学习中特征提取性能影响的问题,本文从生物学角度出发,人工提取了与核糖体停靠事件发生密切相关的三类新特征——序列保守性特征、疏水性特征及氨基解离常数特征,并使用新的多特征融合方式对新特征和常用特征进行融合;其次,针对已有基于深度学习的方法网络模型过于简单,难以处理多特征融合带来的噪声,且难以挖掘不同特征描述之间存在的内在关联的问题,本文增加了网络的通道数,在通道上对不同特征进行融合,并增加了网络的深度,从而构造了一个新的基于CNN的网络模型;最后,在人类与酵母的五个数据集上,将本文方法与不同深度学习模型及已有最新预测方法进行对比实验。实验结果验证了本文提出的Deep Rib St方法的优越性能,它在多项评价指标上均为最优结果,是一种有效的核糖体停靠位点预测方法。(2)在HVPPI的预测问题中,本文提出了一种新的基于蛋白质唯一表示(Unified representation of the protein,Uni Rep)与卷积神经网络的HVPPI预测方法——Uni C-Net。首先,针对已有方法使用的实验数据集不够全面、未考虑序列同源性对实验结果带来的偏向性等问题,综合考虑了七个权威数据库中所有的HVPPI实验数据集,并使用blastp算法对数据进行去同源化处理,以构建非冗余且非同源的实验数据集;其次,针对已有方法未考虑蛋白质序列结构特征对HVPPI的影响的问题,使用Uni Rep方法提取新的基于蛋白质结构信息的生物学特征描述,并与已有特征描述进行多特征融合,以构造更完备的特征矩阵;第三,针对已有方法网络模型简单,难以针对不同类别的特征描述进行有效多特征融合、且难以挖掘不同特征矩阵之间的隐层关系等问题,设计了新的基于CNN的模型对不同特征进行分类融合;最后,针对单个模型预测性能稳定性不够、预测结果受初始化信息及数据分布影响较大的问题,对网络进行集成,分别独立训练10个网络模型。独立测试集下与不同深度学习模型及最新方法的对比实验结果验证了新方法的优越性。(3)在lncRNA与疾病相关性的预测问题中,本文从传统机器学习和深度学习两类方法出发分别提出了两种高效预测算法,称之为LDNFSGB和MCA-Net算法。在LDNFSGB算法中,首先,针对已有传统机器学习方法对生物学特征选择不够全面、未考虑全部常用相似性特征对算法预测性能影响的问题,设计提取了lncRNA的全局功能相似性特征矩阵,并通过多特征融合构建了一个全面的特征向量;其次,针对新特征向量的特征维度较高、且未区分不同特征对算法性能贡献大小的问题,使用自编码器对特征进行降维处理,得到一组具有代表性的特征向量;最后,针对已有方法使用的分类器未充分考虑数据分布特征的问题,采用梯度增强算法(Gradient boosting)作为分类器进行lncRNA-疾病相关性预测。在多个数据集下使用三种验证方式进行对比实验及案例分析实验,其结果均验证了新方法的有效性。在MCA-Net算法中,首先,针对已有深度学习方法对生物学特征选择不够全面,且未考虑不同特征对算法性能的贡献程度不同等问题,全面考虑已有的六种相似性特征,并通过不同权值强调不同相似度特征的重要性;针对已有深度网络模型简单,未考虑每层卷积网络中不同通道提取特征的重要性等问题,设计了新的基于CNN的注意力机制模块;最后,针对新的特征编码方式和注意力机制模块的特点,设计合适本文特征向量的新的基于多特征编码和注意力卷积神经网络的预测模型。在三个公开数据集上进行对比实验及案例分析实验,其结果均验证了新方法的优越性。
其他文献
与板间地震相比,板内地震虽然稀少,但却能带来巨大的灾害。为了更好地认识板内地震,本文选取了四个构造背景不同,但都发生板内地震的区域作为研究区。采用地震层析成像方法,本文获得了各个研究区的P波速度结构。然后,本文探讨了九州岛火山的起源、土耳其地区地壳及上地幔的变形模式、青藏东南缘的地震分布、和美国中东部地区的岩石圈横向变化及地幔深部结构等问题。再分别研究了各区域内深部结构与板内地震的关系。并进一步对
炎症性肠病(Inflammatory bowel diseases,IBD)是目前胃肠道最复杂的疾病之一,由于其致病机理的不确定性,导致该疾病尚无法完全治愈。IBD反复发作可引起结肠炎相关结肠癌的发生,严重威胁人类健康。IBD早年主要集中在西方发达国家,近年来,IBD在我国的发病率逐年升高。深入研究IBD发病机理,对于IBD临床诊疗和预后判断有十分重要的价值,也是我国生物医学领域研究人员亟待解决的
声学人工材料(包括声子晶体和声学超构材料)进一步拓展了自然界中声学材料的弹性波性质,能够实现奇异而有趣的物理效应,如负折射、超分辨成像、声学隐身等。本文通过构建声学人工材料中的几种狄拉克锥形色散关系和透射型超表面,实现了声波的多种异常调控操作。本论文在第一章绪论部分主要回顾了声学人工材料的分类、相关研究背景、最新进展以及声子晶体中狄拉克锥形色散关系,并概述了本论文的主要研究内容。在第二章中基于不同
随着我国海洋科技的逐步革新以及海洋强国战略的逐步推进,南海岛礁工程建设已得到飞速发展。在海洋工程建设过程中,钙质砂作为一种重要的地基材料得到十分广泛应用。由于钙质砂成因与一般陆源砂存在显著区别,因而其物理力学特征亦不同于一般陆源砂。在采用钙质砂作为建筑材料进行工程建设过程中,针对陆源砂所构建的常规工程建设理论和技术存在一定不足,因此,需进一步针对钙质砂物理力学特征进行深入探究,从而为形成针对钙质砂
中–上侏罗统的燕辽特异埋藏化石库产出了数量众多、保存精美的水生和陆生生物化石,包括多种植物、昆虫、鱼、蝾螈、蜥蜴、鳄型类、恐龙、翼龙以及哺乳形动物等。这些化石发现大多具有重要的演化意义,揭示了许多支系的演化早期类型或演化过程中的关键转折。尽管燕辽生物群的古生物学研究取得了一系列重要发现,这一化石宝库形成的古环境和化石特异埋藏机制迄今还缺乏系统的研究工作。同时,燕辽生物群目前不断有许多新化石材料产出
悬浮在大气中的细颗粒物(PM2.5)会影响能见度,改变地球辐射从而影响气候变化,还会对人类身体健康产生危害。PM2.5的性质与它的化学成分息息相关。不同区域PM2.5化学成分有较大的差异且来源复杂,研究中存在较多的不确定性。长三角城市群区是全球经济发展最快、人口最稠密的地区之一。该地区排放源及传输特征复杂,且相对湿度较高,气溶胶具有载荷高、理化性质季节差异大等特点。本研究以长三角西部地区南京大学地
哺乳动物的大脑皮层发育受到众多机制的调控,在其中信号通路蛋白的磷酸化与去磷酸化也扮演着重要的作用。关于调控蛋白质磷酸化的蛋白激酶,其在大脑皮层发育中的作用近来已经收获了广泛关注,很多蛋白激酶都被证实在大脑皮层发育中有着重要作用。而与此相对的,调控蛋白质去磷酸化的蛋白磷酸酶,其在大脑皮层中的作用则一直并不明确。其实,与蛋白激酶相比,蛋白磷酸酶底物更加广泛,其在细胞活动中的作用也更加多样,而很多细胞活
有机室温磷光(organic room temperature phosphorescence,RTP)与有机长余辉(organic long persistent luminescence,OLPL)材料在信息加密防伪、生物成像、白光照明、水氧传感、有机电致余辉器件和圆偏振发光方面有着非常广泛的应用。对有机磷光材料或者有机长余辉材料的研究重点在于提高磷光量子产率的同时提高磷光寿命。在过去的几十年
目的:(1)系统地分析缺血性脑卒中(IS)和短暂性脑缺血发作(TIA)患者特异血清microRNAs(miRNAs)的表达特征;探讨IS和TIA患者特异血清miRNAs的临床应用价值;(2)证实miR-23b-3p和miR-29b-3p与预测靶基因之间的靶向关系,探讨其在缺血性脑血管疾病中参与的分子调控网络和具体作用机制。方法:(1)通过混合血清样本Taq Man低密度芯片初筛以及单个血清样本的实
作为一种新型的超宽禁带半导体,β-Ga2O3具有超宽带隙(~4.9 e V)、高击穿电场以及良好的热稳定性和化学稳定性等优势,在光电材料和功率器件方面得到了广泛研究。其中,纳米结构的β-Ga2O3材料同时具有超宽禁带半导体材料的优势和纳米材料的特征,并且能够表现出薄膜结构所不具备的新的光学和电学性能,在气敏传感器、紫外探测器、微型光电子器件和柔性电子器件等领域具有潜在的应用前景。虽然目前关于β-G