论文部分内容阅读
miRNA是一类长度约为22~24个核苷酸的非编码RNA,广泛存在于真核生物中,通过调控靶基因的表达在许多生物过程中发挥着至关重要的作用,如早期细胞生长、发育、增殖、分化、肿瘤侵袭和细胞凋亡等,而突变或生物功能障碍的miRNA会导致白血病、肺癌等多种疾病的发生。因此,研究miRNA与疾病之间的关联有助于从分子水平了解疾病的发病机制,对于研究疾病的预后、诊断、评估和治疗具有重要意义。现有的miRNA-疾病关联预测方法主要包括传统生物实验方法和计算预测方法,传统生物实验方法采用PCR和微阵列等生物技术,基于生物理论揭示miRNA与疾病之间的关系,可信度高,但其过程复杂、昂贵且耗时,难以实现大规模miRNA-疾病关联预测;而计算预测方法基于miRNA和疾病相似性信息,通过矩阵分解构建线性空间或采用机器学习、深度学习的方法学习非线性特征,可以有效预测miRNA-疾病间的关联,降低了miRNA-疾病关联预测的成本。然而,现有的计算预测方法直接以miRNA和疾病相似性作为输入进行特征提取,忽略了miRNA和疾病原始相似性矩阵中缺失值的处理,导致了特征中包含缺失值,影响特征学习的质量;在特征提取过程中未考虑相似性数据中拓扑结构信息以及miRNA和疾病的线性特征和非线性特征的融合,忽略了线性特征对非线性特征的补充,影响miRNA-疾病关联预测结果。本文针对上述问题,构建了基于生成对抗网络和多特征融合的miRNA-疾病关联预测模型,主要研究内容如下:(1)现有miRNA-疾病关联预测方法直接以miRNA和疾病语义相似性作为输入,未处理相似性数据中的缺失值,且在特征提取过程中,忽略了相似性数据中丰富的拓扑结构信息,针对该问题,本文提出了一种基于生成对抗网络和图卷积网络的miRNA-疾病关联预测模型GAGCN。该模型采用生成对抗网络插补miRNA和疾病相似性矩阵中的缺失值,从而降低相似性矩阵的稀疏性,构建更精确完整的初始特征空间;然后采用图卷积网络分别学习miRNA和疾病的拓扑特征表示,捕获miRNA和疾病相似性中的潜在关联信息,并嵌入卷积注意机制进行特征空间的自适应优化,实现miRNA-疾病关联预测。实验结果表明,相似性数据中缺失值的处理以及拓扑结构信息的学习可以更好地预测潜在miRNA-疾病关联。(2)GAGCN模型采用两层图卷积实现了非线性拓扑特征的有效提取,然而在特征提取过程中该模型采用的图卷积网络较浅,仅关注了低阶邻域信息的学习,无法有效提取高阶邻域信息,影响了miRNA和疾病深层特征表示的学习;且它仅提取了miRNA和疾病的非线性特征,未考虑线性特征中已知miRNA-疾病关联的潜在信息,忽略了线性特征对非线性特征的补充。基于此,本文提出了基于生成对抗网络和多特征融合的miRNA-疾病关联预测模型GA-Deep GCN,该模型引入非负矩阵分解方法学习miRNA和疾病的线性特征;并采用深度图卷积网络代替传统GCN,通过密集连接增加网络深度,以提取miRNA和疾病的深层非线性特征;最后,融合线性特征和非线性特征进行miRNA-疾病关联预测。实验结果表明深度图卷积网络的引入以及线性特征与非线性特征的融合可以有效提高miRNA-疾病关联预测性能。(3)本文基于提出的miRNA-疾病关联预测模型GA-DeepGCN,结合MVC框架开发了miRNA-疾病关联预测的Web服务平台。该平台集成实现了miRNA-疾病关联数据库查询功能和在线预测功能,用户可根据miRNA或疾病信息查看经过HMDD等数据库验证的关联,也可直接在线预测疾病相关的miRNA,有助于用户能够快速直观地观察本文模型的预测功能和效果。综上所述,本文采用生成对抗网络插补相似性矩阵中的缺失值,并结合非负矩阵分解方法和深度图卷积网络实现了miRNA和疾病的线性特征和深层非线性拓扑特征的融合,进一步丰富了特征空间,有效预测了潜在miRNA-疾病关联。与现就方法相比,GA-Deep GCN可以更好地预测疾病相关的miRNA,为疾病诊断和治疗领域的研究提供有效的靶点信息。