基于机器学习的疾病相关基因识别研究

来源 :广东药科大学 | 被引量 : 1次 | 上传用户:wxhush
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
疾病严重威胁着人类的健康和生命,是当今各国政府及医疗技术研发机构所共同面临的挑战。目前,精准医学在我国发展迅速,而挖掘疾病相关基因,探索基因功能,全面了解疾病发病机理是迈向精准医学的必经之路。从人类基因组中识别疾病相关基因不仅对化学、生物学、医学和药学研究十分重要,而且是具有挑战性的一项任务。识别疾病相关基因是揭示疾病分子基础的第一步,有助于提高对基因功能及相互作用和生物相关途径的认知。同时,识别疾病相关基因是了解发病机理和发现治疗靶点的重要步骤之一,能够帮助解决系统医学领域的重要问题,例如:疾病病因学研究,以及新药研发和药物设计等。疾病的症状和蛋白质序列信息是认识疾病与基因之间复杂关系的重要资源。应用机器学习的方法识别疾病相关基因有助于研究人员进一步缩小搜索范围,优化深入验证疾病相关基因的湿实验,加速疾病相关基因的鉴定。本毕业论文主要内容如下:1.围绕课题的研究内容,对基因在疾病发生中的重要性、识别疾病相关基因在生物医学及药学领域的意义、疾病相关基因识别方法的研究现状,以及机器学习技术进行了综述。2.基于深度卷积神经网络,提出了一种新的用于预测潜在的疾病相关基因的方法。首先,分别用蛋白质一级结构信息和疾病临床症状信息表征基因和疾病。然后,采用疾病临床症状和蛋白质一级结构信息构建二维灰度图表征疾病与基因的关联信息。最后,采用深度卷积神经网络构建模型预测潜在的疾病相关基因。其中,训练集的准确率、敏感性、特异性、精准率和马氏相关系数分别为92.29%、91.52%、93.06%、92.95%和0.8459;测试集的准确率、敏感性、特异性、精准率和马氏相关系数分别80.63%、80.12%、81.14%、80.95%和0.6125。实验结果表明,所开发方法具有良好的分类预测性能和较好的鲁棒性。此外,构建的模型预测出的前50个疾病-基因关联对中与子宫内膜异位症相关的预测结果分别被文献、分子模拟和富集分析验证,表明了当前方法的有效性。本方法为探索疾病与基因之间的复杂关系提供了一种新的方法和思路。3.基于网络拓扑结构特性与生物学功能特征的高度相关联性,本研究提出了一种基于基因-疾病异质性网络拓扑结构特征的疾病相关基因识别方法。首先,利用已知的疾病共享基因和疾病临床症状信息构建疾病相似性网络,通过已知疾病-基因关联信息,将疾病相似性网络与蛋白质相互作用网络整合为基因-疾病异质性网络。以“guilt by association”原则为理论指导,对网络中的节点特征进行加权。然后,基于图论,提取异质性网络节点的拓扑学特征。此外,通过蛋白质序列比对和疾病相似性计算,筛选可靠的负样本数据集。最后,采用随机森林算法构建模型,预测潜在的疾病-基因关联。交叉验证的准确率、敏感性、特异性、精准率和马氏相关系数分别96.45%、93.65%、99.24%、99.20%和0.9304。结果表明,所开发方法具有优异的分类预测性能。分别针对肺癌、白血病、阿尔茨海默症及白癜风构建模型,预测结果中的前十种大多数被文献证实。利用分子模拟技术进一步确证了基因ADA与阿尔茨海默症相关。这些结果表明,当前方法可以有效地用于疾病-基因关联识别研究。
其他文献
随着我国经济的快速增长和现代化进程的加快,水库、湖泊等地表水已经成为绝大多数城市的主要饮用水水源,内源污染是目前大多数水库亟需解决的水质问题之一。水库水温分层是内
目前国内外越来越多的老旧建筑结构存在不同程度的安全隐患,采取及时有效的加固改造措施显得十分必要。近年来随着新材料、新技术在加固领域的广泛应用,我国混凝土加固改造技
声音事件检测是对一段音频检测包含的声音事件和发生位置的技术,声音事件分类则只需获得事件类别信息。这一技术是获取周围环境信息不可缺少的手段,特别在某些特定环境,例如
随着大数据与人工智能技术应用的发展,图像分割已成为计算机视觉研究的主要方向,并成功应用于医学、安防等多个领域。以机器学习为基础发展出了一系列图像分割算法,并在理论
为了解句容水库农业小流域水体中温室气体浓度与通量的时空变化特征,于2015年10月至2017年9月进行两年的流域水样采集,采用顶空平衡-气相色谱仪法计算水体中温室气体浓度与通
夹卷是大气边界层与自由大气进行能量和物质交换的重要途径,对边界层动力结构及边界层内温度、水汽和各种污染物浓度具有重要影响。本文采用香港地区2002-2016年臭氧探空资料
随着人类探索和开发太空资源需求的日益增加,航天任务正朝着多样化和复杂化的方向发展。航天器交会作为各种航天任务,如型空间结构的组装、空间碎片清理、航天器在轨服务以及
基于范数定义的度量学习是机器学习、模式识别领域的基础性工作之一。最为常用的是基于L2范数的欧氏距离和马氏距离,因其易于求解(L2范数可微)且符合人类直觉,该范数被广泛应
废橡胶是目前常见的“黑色污染”之一,日益增多的废橡胶对环境所带来的影响愈发严重。科学合理的处理和利用废橡胶已成为能源和环境亟待解决的问题。将废橡胶作为添加剂用于配煤炼焦,不仅能够解决废橡胶的回收利用问题,还能够达到焦炭提质降本的目的。不同的橡胶制品来源于生产中不同的原料和配比。如各种汽车轮胎主要采用天然橡胶(NR)、丁苯橡胶(SBR)、顺丁橡胶(BR)等,但其中载重车以天然橡胶和顺丁橡胶为主,拖拉
随着科技水平的进步,人们对于外太空的探索的需求愈加强烈、迫切,作为航天探索工具的航天器在探索的过程中起到了不可或缺的作用。在太空中的任务较为繁琐,空间环境复杂,这对