论文部分内容阅读
疾病严重威胁着人类的健康和生命,是当今各国政府及医疗技术研发机构所共同面临的挑战。目前,精准医学在我国发展迅速,而挖掘疾病相关基因,探索基因功能,全面了解疾病发病机理是迈向精准医学的必经之路。从人类基因组中识别疾病相关基因不仅对化学、生物学、医学和药学研究十分重要,而且是具有挑战性的一项任务。识别疾病相关基因是揭示疾病分子基础的第一步,有助于提高对基因功能及相互作用和生物相关途径的认知。同时,识别疾病相关基因是了解发病机理和发现治疗靶点的重要步骤之一,能够帮助解决系统医学领域的重要问题,例如:疾病病因学研究,以及新药研发和药物设计等。疾病的症状和蛋白质序列信息是认识疾病与基因之间复杂关系的重要资源。应用机器学习的方法识别疾病相关基因有助于研究人员进一步缩小搜索范围,优化深入验证疾病相关基因的湿实验,加速疾病相关基因的鉴定。本毕业论文主要内容如下:1.围绕课题的研究内容,对基因在疾病发生中的重要性、识别疾病相关基因在生物医学及药学领域的意义、疾病相关基因识别方法的研究现状,以及机器学习技术进行了综述。2.基于深度卷积神经网络,提出了一种新的用于预测潜在的疾病相关基因的方法。首先,分别用蛋白质一级结构信息和疾病临床症状信息表征基因和疾病。然后,采用疾病临床症状和蛋白质一级结构信息构建二维灰度图表征疾病与基因的关联信息。最后,采用深度卷积神经网络构建模型预测潜在的疾病相关基因。其中,训练集的准确率、敏感性、特异性、精准率和马氏相关系数分别为92.29%、91.52%、93.06%、92.95%和0.8459;测试集的准确率、敏感性、特异性、精准率和马氏相关系数分别80.63%、80.12%、81.14%、80.95%和0.6125。实验结果表明,所开发方法具有良好的分类预测性能和较好的鲁棒性。此外,构建的模型预测出的前50个疾病-基因关联对中与子宫内膜异位症相关的预测结果分别被文献、分子模拟和富集分析验证,表明了当前方法的有效性。本方法为探索疾病与基因之间的复杂关系提供了一种新的方法和思路。3.基于网络拓扑结构特性与生物学功能特征的高度相关联性,本研究提出了一种基于基因-疾病异质性网络拓扑结构特征的疾病相关基因识别方法。首先,利用已知的疾病共享基因和疾病临床症状信息构建疾病相似性网络,通过已知疾病-基因关联信息,将疾病相似性网络与蛋白质相互作用网络整合为基因-疾病异质性网络。以“guilt by association”原则为理论指导,对网络中的节点特征进行加权。然后,基于图论,提取异质性网络节点的拓扑学特征。此外,通过蛋白质序列比对和疾病相似性计算,筛选可靠的负样本数据集。最后,采用随机森林算法构建模型,预测潜在的疾病-基因关联。交叉验证的准确率、敏感性、特异性、精准率和马氏相关系数分别96.45%、93.65%、99.24%、99.20%和0.9304。结果表明,所开发方法具有优异的分类预测性能。分别针对肺癌、白血病、阿尔茨海默症及白癜风构建模型,预测结果中的前十种大多数被文献证实。利用分子模拟技术进一步确证了基因ADA与阿尔茨海默症相关。这些结果表明,当前方法可以有效地用于疾病-基因关联识别研究。